CN116523757A - 基于生成对抗网络的光场图像超分辨率模型及其训练方法 - Google Patents
基于生成对抗网络的光场图像超分辨率模型及其训练方法 Download PDFInfo
- Publication number
- CN116523757A CN116523757A CN202310651633.8A CN202310651633A CN116523757A CN 116523757 A CN116523757 A CN 116523757A CN 202310651633 A CN202310651633 A CN 202310651633A CN 116523757 A CN116523757 A CN 116523757A
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- convolution
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims description 54
- 238000000034 method Methods 0.000 title claims description 46
- 238000004220 aggregation Methods 0.000 claims abstract description 54
- 230000002776 aggregation Effects 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 230000004913 activation Effects 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
基于生成对抗网络的光场图像超分辨率模型,包括生成网络和判别网络,所述生成网络包括初始特征提取模块、特征聚合模块和上采样模块;所述初始特征提取模块包括顺序连接的1个三维卷积层和多个加深卷积层;所述特征聚合模块由空间特征聚合模块和角度特征聚合模块构成,所述上采样模块包括顺序连接的第一卷积层、亚像素卷积层、激活层和第二卷积层;所述判别网络的作用为判别所述生成网络的生成图像与真实图像之间的差别,辅助生成网络模型进行训练。本发明通过对抗学习的方式可以不断提升图像生成质量,生成的图像在视觉效果上比其它现有光场模型更好,高频信息更丰富。
Description
技术领域
本发明涉及光场图像处理领域,具体为一种基于生成对抗网络的光场图像超分辨率模型及其训练方法。
背景技术
随着成像设备的不断发展,光场成像已经成为一种可以从真实场景捕获更丰富视觉信息的技术。与传统成像设备相比,光场相机可以从各方向收集空间中的光线信息,通过一次曝光即可获得当前场景的四维光场信息。这种特性使光场相机具有很广泛的应用:图像捕获后的光场重聚焦、基于光场信息的深度估计和基于光场相机图像的三维渲染等。由于光场相机特殊的设计结构,使得其成像分辨率受到传感器分辨率的限制,所采集光场的角度分辨率和空间分辨率存在相互制约的关系,需在两者之间做合理的平衡,这就导致光场相机图像的空间分辨率普遍较低,不足以满足当前市场上的应用需求。
要提升光场图像空间分辨率主要有两种方法:第一就是升级光场相机硬件,提高图像传感器的像元数目的同时相应地提高微透镜阵列中微透镜的数量,或者提高图像传感器的像元密度;第二则是通过图像处理的相关算法提升光场相机的空间分辨率。现有的基于算法的光场图像超分辨方法可以分为基于传统的方法和基于深度学习的方法。传统的光场图像超分辨方法利用深度或视差估计技术进行建模,然后将超分辨表述为一个优化问题。基于深度学习的方法利用跨视图冗余和视图之间的互补信息来学习从低分辨率视图到高分辨率视图的映射。近年来基于深度学习的方法相比于传统方法在效果上有了显著的提升,但是现有的无论是卷积还是Transformer网络,大多通过最小化均方误差重建高分辨率图像,产生较高峰值信噪比(Peak Signal to Noise Ratio,PSNR),但此做法会使生成图像较为平滑,高频细节不够。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种基于生成对抗网络的光场图像超分辨率模型及其训练方法。
本发明所述基于生成对抗网络的光场图像超分辨率模型,包括生成网络和判别网络,所述生成网络包括初始特征提取模块、特征聚合模块和上采样模块;
所述初始特征提取模块包括顺序连接的1个三维卷积层和多个加深卷积层,所述加深卷积层包括1个三维卷积层和1个激活层;
所述特征聚合模块由空间特征聚合模块和角度特征聚合模块构成,
所述空间特征聚合模块包括卷积部分和Transformer部分,卷积部分包括卷积层和激活层,Transformer部分包括顺序排列的第一多层感知层、第一归一化层、第一多头自注意机制、第二归一化层和第二多层感知层,所述第一多头自注意机制的输出端与第一多层感知层的输出端进行跳跃连接,第二多层感知层的输出端和第二归一化层的输入端进行跳跃连接;跳跃连接即相加操作。
所述角度特征聚合模块包括卷积部分和Transformer部分,卷积部分包括卷积层和激活层,Transformer部分包括顺序排列的第三归一化层、第二多头自注意机制,第四归一化层和第三多层感知层,所述第一多头自注意机制的输出端与第三归一化层的输入端进行跳跃连接,第三多层感知层的输出端和第四归一化层的输入端进行跳跃连接;
所述上采样模块包括顺序连接的第一卷积层、亚像素卷积层、激活层和第二卷积层;
所述判别网络的作用为判别所述生成网络的生成图像与真实图像之间的差别。
优选的,所述判别网络使用视觉Transformer领域网络架构构造,包括顺序连接的分块模块、通道变换模块、STB模块、块融合模块和STB模块,所述STB模块包括依次连接的第五归一化层、第三多头自注意层、第六归一化层和第四多层感知层。
优选的,所述特征聚合模块有多个并顺序连接在初始特征提取模块和上采样模块之间。
基于生成对抗网络的光场图像超分辨率模型训练方法,包括如下步骤:
步骤1:准备开源光场训练数据集;
步骤2:对训练数据集进行预处理操作;
步骤3:预处理后的训练数据进入初始特征提取模块进行初始特征提取;得到提取后的初始特征;
步骤4.进行空间特征聚合,这一步骤分为两部分:Transformer部分和卷积部分,Transformer部分具体为:
步骤41.将提取后的初始特征做展开和边界填充;
步骤42.展开填充后的数据送入第一多层感知层中,实现局部特征聚合后重构为空间特征序列;
步骤43.对空间特征序列执行二维位置编码,得到空间位置编码并将其添加到空间特征序列中;
步骤44.求取空间特征序列的多头注意结果
T′Spa=MHSA(QS,KS,VS)+TSpa
则空间多头输出结果
且查询值空间矩阵QS,索引值空间矩阵KS和内容值空间矩阵VS按照下式计算
QS=KS=LN(TSpa+PS)
VS=TSpa
其中TSpa表示空间特征序列,MLP表示多层感知操作,LN表示归一化操作,MHSA表示多头自注意机制;
将空间Transformer模块输出结果重构为与输入的数据大小相同的数据进入下一步骤;
步骤45.空间特征聚合的卷积部分:将步骤3得到的提取后的初始特征做卷积,继续提取特征;
步骤46.将空间特征聚合的Transformer部分结果和步骤45得到的卷积部分结果相加,继续进行下一步骤;
步骤5.进行角度特征聚合,这一步骤分为两部分:Transformer部分和卷积部分,Transformer部分具体为:
步骤51.将步骤46输出的数据按照角度维度展开成角度特征序列TAng;
步骤52.对角度特征序列执行二维位置编码,得到角位置编码PA并将其添加到添加到角度特征序列TAng中;
步骤53.求取角度特征序列的多头注意结果
T′Ang=MHSA(QA,KA,VA)+TAng
查询值角度矩阵QA、索引值角度矩阵KA、内容值角度矩阵VA按照下式计算
QA=KA=LN(TAng+PA),VA=TAng
T′Ang为角度特征序列的多头注意结果,为角度Transformer模块输出结果,MLP表示多层感知操作,LN表示归一化操作,MHSA表示多头自注意机制;
步骤54.角度特征聚合的卷积部分:将步骤46的结果做卷积处理,继续提取特征;
步骤55.将角度特征聚合的Transformer部分结果和步骤54的卷积处理结果相加,继续进行下一步骤;
最后将卷积处理结果与角度多头输出结果相加,进入下一个步骤;
步骤6.进行上采样,得到图像输出结果;
步骤7.通过比较图像输出结果与步骤2中对应的预处理后的训练数据,对基于生成对抗网络的光场图像超分辨率模型中的生成网络和判别网络进行训练;
优选的,所述步骤3的初始特征提取为:
F0=C4(C3(C2(C1(ILR))))+(C1(ILR)
其中,F0表示提取后的初始特征,ILR为输入进来的训练数据低分辨率图像,C1表示三维卷积操作,C2至C4表示先进行三维卷积层操作,再经过激活函数处理。
优选的,所述步骤6的上采样具体为:
先利用第一二维卷积层conv0对输入数据进行通道扩张:然后再利用亚像素卷积层将特征分辨率扩大,然后经过激活函数层进行激活,最后利用第二二维卷积层conv2将数据通道压缩到1,得到最终的超分辨率输出。
优选的,所述步骤4和步骤5循环执行多次。
优选的,所述步骤2中的预处理为:将训练数据集中的光场子孔径图像剪裁,并使用双三次下采样方法生成图像块,将图像块转换为YCbCr形式,并且提取原始图像中Y通道的数据;
最后将数据保存为h5格式。
优选的,所述步骤7的训练方法具体为:
S71.定义生成网络和判别网络的损失函数,设置损失函数的各个阶段值;
S72.固定生成网络,图像输出结果与步骤2中对应的预处理后的训练数据输入判别网络,根据判别网络损失函数优化判别网络,达到阶段值后停止训练判别网络;
S73.固定判别网络,训练生成网络,根据生成网络损失函数优化生产网络,达到阶段值后停止训练生成网络;
更换损失函数阶段值,循环进行步骤S72和S73,直到训练结束。
优选的,所述生成网络损失函数和判别网络LG和Ld为:
LG=Lc+0.2*Lper+0.3*Le+0.1*LG_adv
LD=LD_adv
其中LG表示生成网络损失函数,LD表示判别网络损失函数,Lc表示像素损失,LPER表示感知损失,Le表示边缘损失,LG_adv表示生成对抗损失,LD_adv表示判别对抗损失。
本发明具有如下技术优越性:
本发明针对现有的基于深度学习的光场图像超分辨率重建模型生成的图像过于平滑,高频细节信息较少等问题,采用了生成网络和判别网络组合的多神经网络结构,通过对抗学习的方式可以不断提升图像生成质量,生成的图像在视觉效果上比其它现有光场模型更好,高频信息更丰富。
本发明利用Transformer的自注意力机制具有长距离依赖关系建模能力的优势,本发明将其与卷积进行融合,兼顾两种模型的优势,设计了SCTB和ACTB两个混合模型,使得局部特征和全局特征进行交互。
附图说明
图1为本发明所述生成网络的一种具体实施方式示意图;
图2为本发明所述空间特征聚合模块Transformer部分的一种具体实施方式示意图;
图3为本发明所述角度特征聚合模块Transformer部分的一种具体实施方式示意图;
图4为本发明所述上采样模块的一种具体实施方式示意图;
图5为本发明所述STB模块的一种具体实施方式示意图;
图6为本发明所述判别网络的一种具体实施方式示意图;
图7为利用本发明得到的模型与现有技术对一副原始图像分别进行图像生成的对比示意图;
图8为利用本发明得到的模型与现有技术对又一副原始图像分别进行图像生成的对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明:
步骤1:准备开源光场训练数据集和测试数据集;
步骤2:对训练数据集进行预处理操作,具体为:
将训练数据集中的光场子孔径图像剪裁,并使用双三次下采样方法生成32x32大小的图像块,将图像块转换为YCbCr形式,并且提取原始图像中Y通道的数据。
YCbCr图片格式中Y是指亮度分量,Cb指蓝色色度分量,而Cr指红色色度分量;相比于色彩,人眼对亮度更加敏感,因此如果保证亮度不变,轻微减少色彩通道的信息,人眼感官上图像质量并不会下降。因此可以通过减少色彩信息的方式来减少存储空间,即只保留Y通道的数据。
最后将数据保存为h5格式;在深度学习中,通常会使用巨量的数据或图片来训练网络。对于如此大的数据集,如果对于每张图片都单独从硬盘读取、预处理、之后再送入网络进行训练、验证或是测试,这样效率太低。如果将这些图片都放入一个文件中再进行处理效率会更高。有多种数据模型和库可完成这种操作,如HDF5。
H5文件是层次数据格式第5代的版本(Hierarchical Data Format,HDF5),它是用于存储科学数据的一种文件格式和库文件。由美国超级计算中心与应用中心研发的文件格式,用以存储和组织大规模数据。HDF5拥有一系列的优异特性,使其特别适合进行大量科学数据的存储和操作,如它支持非常多的数据类型,灵活、通用、跨平台、可扩展、高效的I/O性能。
步骤3:构建如图1和图2所示的基于生成对抗网络的模型,包括生成网络和判别网络。
其中生成网络包括初始特征提取模块,特征聚合模块和上采样模块,所述特征聚合模块由空间特征聚合模块SCTB和角度特征聚合模块ACTB构成
首先,训练数据进入初始特征提取模块,初始特征提取模块由卷积层和激活函数层组成,在一个实例中,卷积层参数可以如下表所示:
初始特征提取具体过程可以表示如下:
F=C4(C3(C2(C1(ILR))))+(C1(ILR)
其中,ILR为输入进来的训练数据,通常为低分辨率图像,C1对应为图1中三维卷积层,C2至C4对应为图1中的三个三维卷积层与激活函数层的组合,即所述加深卷积层,其中激活函数层可以采用LEAKYRELU函数层;F表示提取后的初始特征,U和V表示角度维度,H和W表示空间维度即图像长宽,C表示通道数。
其次,构建特征聚合模块FIB(Feature Incorporation Block),其由空间特征聚合模块SCTB和角度特征聚合模块ACTB构成。
步骤4.进行空间特征聚合
对ILR进行特征提取后,将提取的特征F送入空间特征聚合模块SCTB,如图2所示,空间特征聚合模块SCTB是由卷积部分和Transformer部分组成的混合网络模块,在一个实例中,卷积部分可以与上述初始特征提取网络中的C2至C4层加深卷积层结构相同,通过加深卷积层,继续提取特征,得到结果Cspa;Transformer部分主要利用多头注意力机制(Multi-head Self-attention)来构造。为了充分利用特征提取的信息,将初始提取特征F按照3×3的窗口进行展开,也就是展开后的结果的每个元素由原来周围3*3的元素拼接而成,对边界元素,采用0填充。
展开后然后将其送入空间特征聚合模块的第一多层感知层中,实现局部特征聚合,再将经过局部聚合的特征经过空间重叠后重构为空间特征序列,局部特征聚合和空间重叠可以通过Pytorch中的unfold函数操作实现,将空间特征序列设置为内容值V。
然后,再对空间特征序列执行二维位置编码,将位置编码加到空间序列特征中,将相加的值在第一归一化层中进行归一化,得到的值设置为查询值Q和索引值K。将一组Q,K,V整体看做一个注意头。
空间特征聚合模块SCTB的Transformer部分一个具体结构如图2所示,依次经过第一多层感知层、第一归一化层、第一多头自注意机制、第二归一化层和第二多层感知层。空间特征聚合模块SCTB的具体操作过程为:
步骤41.首先,进行SCTB的Transformer部分。为了充分利用特征提取的信息,首先将初始提取特征F做展开:将输入特征F按照3×3的窗口进行展开,也就是展开后的结果的每个元素由原来周围3*3的元素拼接而成,对边界元素,采用0填充。
步骤42.然后将其送入第一多层感知层(MLP)中,实现局部特征聚合。聚合后的特征:
其中(x,y)表示特征F上的任意点的空间坐标。xr,yr分别表示与(x,y)的横坐标和纵坐标距离,例如取-1,0,1时表示(x,y)为中心的3*3窗口内的全部点。然后将经过局部聚合的特征F′经过空间重叠后重构为空间特征序列其中UV表示批的维数,NS=HW表示序列长度,ds表示空间特征序列的维数,H,W分别表示二维空间的横向维度和纵向维度,concat表示连接数组操作。
步骤43.为了进一步在空间特征序列中反馈空间的位置关系,对空间特征序列执行二维位置编码:
其中(px,py)=(1,1),...,(H,/J)表示空间位置,j表示空间特征序列的通道索引,H,W分别表示二维空间的横向维度和纵向维度,然后将空间位置编码PS直接添加到空间特征序列TSpa中。
步骤44.然后应用多头自注意机制(MHSA,Multi-Head Self-Attention.)来建模空间特征序列之间的关系,
上式是求取注意力机制的公式,其中,Softmax()为归一化函数,dk为K的维度大小,查询值Q、索引值K、内容值V由下列公式求解:
Q=QsWQ
K=KSWK
V=VSWV
WQ,WK,WV分别为查询值Q,索引值K,内容值V的权重矩阵,查询值空间矩阵QS,索引值空间矩阵KS和内容值空间矩阵VS按照下式计算:
QS=KS=LN(TSpa+PS)
VS=TSpa
LN表示归一化操作,为空间特征序列,PS为空间位置编码。
这部分用的是多头自注意机制,QS,KS和VS的嵌入维数被分成NH组,其中NH为注意头的数量。根据上面的注意力公式,对于每个注意头,其输出的计算公式可表述为:
其中h=1,2,...,NH为注意头索引,dS为QS,KS和VS的通道数,WQ,h,WK,h,WV,h分别为查询值线性投影矩阵、索引值线性投影矩阵和内容值线性投影矩阵,并满足QS,h,KS,h,分别表示第h个注意头的查询值空间矩阵和索引值空间矩阵,上标T表示矩阵转置,将每个注意头的输出在空间特征的维度上进行通道并联,然后利用输出投影矩阵/>得到最终输出的多头自注意机制,ds表示空间特征序列的维数。
多头自注意机制H1…HNH表示注意头输出,下标表示不同的注意头;
然后进一步对第一多头自注意力模块的输出进行整合,将其输入到第二归一化层和第二多层感知层。计算过程可以表述为:
空间特征序列的多头注意结果T′Spa=MHSA(QS,KS,VS)+TSpa
空间多头输出结果
为经过归一化层(LN)和多层感知(MLP)层的空间多头输出结果。
然后,将空间多头输出结果大小重构为与初始特征提取F大小相同的数据。
步骤45.其次,进行空间特征聚合模块SCTB的卷积部分:初始提取特征F结果继续做卷积处理,经过几个类似C2的卷积层,继续提取特征,得到卷积处理结果CSpa;
步骤46.最后将空间特征聚合的Transformer部分结果和卷积部分结果CSpa相加,得到空间特征聚合模块SCTB最终结果RSpa继续进行下一步骤;
步骤5.从空间特征聚合模块SCTB输出的数据Rspa,再进入到角度特征聚合模块ACTB模块。
光场子孔径图像就是光场每一个角度形成的图像,他们具有高的相关性。为了充分利用每一个子孔径图像之间的互补信息,ACTB模块对角度特征进行进一步的提取。
ACTB模块对角度特征进行进一步的提取。ACTB和SCTB相似,也是由一个卷积部分和Transformer部分组成,卷积部分可与SCTB相同,Transformer部分主要也是利用多头注意力机制构造。
步骤51.首先说明ACTB模块的Transformer部分:将SCTB模块得到的特征按照角度维度展开成角度特征序列TAng;
步骤52.进行角度位置编码来建模不同角度的位置相关性,角位置编码PA为:
其中p=1,2,...,A2表示角度位置,不同的角度位置,也即不同的视图;i表示角度特征中的通道索引,dA表示角度特征序列的维数。
如图3所示给出所述角度特征聚合模块的一种具体实施方式,将角位置编码PA直接添加到角度特征序列TAng中,并经过第三归一化层生成查询值角度矩阵QA和索引值角度矩阵KA,且QA=KA=LN(TAng+PA)。内容值角度矩阵VA直接赋值为TAng,即VA=TAng。然后与STCB模块一样,应用多头自注意机制来建模不同角度特征序列之间的关系,整体计算过程可以表述为:
T′Ang=MHSA(QA,KA,VA)+TAng
T′Ang为角度特征序列的多头注意结果,为经过第四归一化层和第三多层感知(MLP)层的角度多头输出结果。
步骤53.进行角度特征聚合模块的卷积部分:与SCTB类似,SCTB输出的数据RSpa通过类似C2的卷积层,得到结果CAng;
步骤54.最后将CAng与相加,得到角度特征聚合模块的最终结果RAng。然后继续将相加的结果RAng传给下一个特征聚合模块FIB,可以设置2-4个FIB模块。
可经过多个FIB模块后,数据再进入上采样模块,
步骤6.上采样,上采样的作用是放大图片。
将图像放大到想要的倍数如2倍或4倍。上采样模块如图3所示。先利用第一二维卷积层convO对输入数据进行通道扩张:
F为输出特征,F’为扩张后的特征,U=V=A为角度维度,H、W为空间维度,C为通道数,r为上采样因子,表示实数集。
然后再利用亚像素卷积层(sub-pixel convolution)将特征分辨率扩大为然后经过LeakyRelu函数层作为激活层进行激活,最后利用第二二维卷积层conv2将通道压缩到1,得到最终的超分辨率输出。
判别网络为使用视觉Transformer领域网络(Swin Transformer)构造一个由Transformer组成的网络,数据依次经过分块模块(Patch Partition)、通道变换模块(Linear Embeding)、STB模块(Swin Transformer Block,)、块融合模块(Patch Merging)、STB模块进行特征提取,最后根据特征图进行分类。
首先将图片输入到分块模块中进行分块,通过通道变换模块对每个像素的通道数据做线性变换,再进入STB(Swin Transformer Block)模块进行特征提取,模块具体结构如图。然后通过一个块融合模块进行下采样,用于缩小分辨率,调整通道数,最后再输入进STB模块。
STB模块如图5所示,与前面空间特征提取和角度特征提取的Transformer模块结构近似。包括依次连接的归一化层(LN,Layer Norm)、多头自注意机制、归一化层和多层感知层。具体作用原理为:
首先输入的特征图F0经过归一化层进行归一化,再经过多头注意模块来建模数据之间的关系,然后将多头注意模块输出的结果F1与输入的特征图FO相加得到中间图像F2,然后中间图像F2依次经过归一化层和多层感知层,最后将输出的结果与中间图像F2相加后输出。
步骤7:利用步骤2处理好的训练数据,对构建好的基于生成对抗网络的光场图像超分辨率模型进行训练,通过多次训练迭代优化,获得性能最好的模型。
训练过程中需要构建生成网络(Generator)和判别网络(Discriminator)损失函数LG,和Ld,LG,Ld可以为:
LG=Lc+0.2*Lper+0.3*Le+0.1*LG_adv
LD=LD_adv
其中LG表示生成网络损失函数,Ld表示判别网络损失函数,Lc表示像素损失(Charbonnier Loss),LPER表示感知损失(Perpectual Loss),Le表示边缘损失(EdgeLoss),LG_adv表示生成对抗损失,LDa_dv表示判别对抗损失。
将真实图像和生成网络生成的假图像输入判别网络里,判别网络负责判别图像的真假,判别网络通过其损失函数LD以真实图像为真,生成图像为假作为判别基础,即判别网络把把生成图像归为假,真实图像归为真,进行网络参数更新,而生成网络通过损失函数LG以生成图像为真为基础进行网络参数更新。
训练的过程实际是生成网络和判别网络博弈的过程。初始时生成网络生成失真度较高的大偏差数据,然后将大偏差数据和真实图像都输入判别网络,判别网络判断真假的能力是一个循序渐进的过程,判别网络初期判别通常有很大的误差,故首先固定生成网络,然后根据判别网络损失函数LD,优化判别网络。当判别网络训练到足以分辨出生成网络生成的大偏差数据后,再固定判别网络,根据生成网络损失函数LG优化生成网络,随着生成网络训练水平提高,然后再固定生成网络,再次训练判别网络,如此循环往复,直到生成网络生成的图像和真实图像接近,训练结束的标准可以是生成数据达到训练预期效果。
训练完成后利用得到的模型可对测试数据集预处理并对其进行超分辨重建;将数据双三次下采样生成低分辨率图像,转换为YCbCr图像,最后将数据保存为h5格式,使用训练时性能最好的模型,对测试集进行超分辨重建,得到超分辨图像。
如图7和图8分别给出利用本发明得到的模型与现有的LFT技术对两副原始图像分别进行图像生成的对比示意图,可以看出比其它现有光场模型相比,图像中央处细节显示更为明显,高频信息更丰富。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (10)
1.基于生成对抗网络的光场图像超分辨率模型,其特征在于,包括生成网络和判别网络,所述生成网络包括初始特征提取模块、特征聚合模块和上采样模块;
所述初始特征提取模块包括顺序连接的1个三维卷积层和多个加深卷积层,所述加深卷积层包括1个三维卷积层和1个激活层;
所述特征聚合模块由空间特征聚合模块和角度特征聚合模块构成;
所述空间特征聚合模块包括卷积部分和Transformer部分,卷积部分包括卷积层和激活层,Transformer部分包括顺序排列的第一多层感知层、第一归一化层、第一多头自注意机制、第二归一化层和第二多层感知层,所述第一多头自注意机制的输出端与第一多层感知层的输出端进行跳跃连接,第二多层感知层的输出端和第二归一化层的输入端进行跳跃连接;
所述角度特征聚合模块包括卷积部分和Transformer部分,卷积部分包括卷积层和激活层,Transformer部分包括顺序排列的第三归一化层、第二多头自注意机制,第四归一化层和第三多层感知层,所述第一多头自注意机制的输出端与第三归一化层的输入端进行跳跃连接,第三多层感知层的输出端和第四归一化层的输入端进行跳跃连接;
所述上采样模块包括顺序连接的第一卷积层、亚像素卷积层、激活层和第二卷积层;
所述判别网络的作用为判别所述生成网络的生成图像与真实图像之间的差别。
2.如权利要求1所述超分辨率模型,其特征在于,所述判别网络使用视觉Transformer领域网络架构构造,包括顺序连接的分块模块、通道变换模块、STB模块、块融合模块和STB模块,所述STB模块包括依次连接的第五归一化层、第三多头自注意层、第六归一化层和第四多层感知层。
3.如权利要求1所述超分辨率模型,其特征在于,所述特征聚合模块有多个并顺序连接在初始特征提取模块和上采样模块之间。
4.基于生成对抗网络的光场图像超分辨率模型训练方法,其特征在于,包括如下步骤:
步骤1:准备开源光场训练数据集;
步骤2:对训练数据集进行预处理操作;
步骤3:预处理后的训练数据进入初始特征提取模块进行初始特征提取;得到提取后的初始特征;
步骤4.进行空间特征聚合,这一步骤分为两部分:Transformer部分和卷积部分,Transformer部分具体为:
步骤41.将提取后的初始特征做展开和边界填充;
步骤42.展开填充后的数据送入第一多层感知层中,实现局部特征聚合后重构为空间特征序列;
步骤43.对空间特征序列执行二维位置编码,得到空间位置编码PS并将其添加到空间特征序列中;
步骤44.求取空间特征序列的多头注意结果
T′Spa=MHSA(QS,KS,VS)+TSpa
则空间多头输出结果
且查询值空间矩阵Qs,索引值空间矩阵Ks和内容值空间矩阵Vs按照下式计算
QS=KS=LN(TSpa+PS)
VS=TSpa
其中TSpa表示空间特征序列,MLP表示多层感知操作,LN表示归一化操作,MHSA表示多头自注意机制;
将空间Transformer模块输出结果重构为与输入的数据大小相同的数据进入下一步骤;
步骤45.空间特征聚合的卷积部分:将步骤3得到的提取后的初始特征做卷积,继续提取特征;
步骤46.将空间特征聚合的Transformer部分结果和步骤45得到的卷积部分结果相加,继续进行下一步骤;
步骤5.进行角度特征聚合,这一步骤分为两部分:Transformer部分和卷积部分,Transformer部分具体为:
步骤51.将步骤46输出的数据按照角度维度展开成角度特征序列TAng;
步骤52.对角度特征序列执行二维位置编码,得到角位置编码PA并将其添加到角度特征序列TAng中;
步骤53.求取角度特征序列的多头注意结果
T′Ang=MHSA(QA,KA,VA)+TAng
查询值角度矩阵QA、索引值角度矩阵KA、内容值角度矩阵VA按照下式计算
QA=KA=LN(TAng+PA),VA=TAng
T′Ang为角度特征序列的多头注意结果,为角度Transformer模块输出结果,MLP表示多层感知操作,LN表示归一化操作,MHSA表示多头自注意机制;
步骤54.角度特征聚合的卷积部分:将步骤46的结果做卷积处理,继续提取特征;
步骤55.将角度特征聚合的Transformer部分结果和步骤54的卷积处理结果相加,继续进行下一步骤;
最后将卷积处理结果与角度多头输出结果相加,进入下一个步骤;
步骤6.进行上采样,得到图像输出结果;
步骤7.通过比较图像输出结果与步骤2中对应的预处理后的训练数据,对基于生成对抗网络的光场图像超分辨率模型中的生成网络和判别网络进行训练。
5.如权利要求4所述模型训练方法,其特征在于,所述步骤3的初始特征提取为:
F0=C4(C3(C2(C1(ILR))))+(C1(ILR)
其中,F0表示提取后的初始特征,ILR为输入进来的训练数据低分辨率图像,C1表示三维卷积操作,C2至C4表示先进行三维卷积层操作,再经过激活函数处理。
6.如权利要求4所述模型训练方法,其特征在于,所述步骤6的上采样具体为:
先利用第一二维卷积层conv0对输入数据进行通道扩张,然后再利用亚像素卷积层将特征分辨率扩大,然后经过激活函数层进行激活,最后利用第二二维卷积层conv2将数据通道压缩到1,得到最终的超分辨率输出。
7.如权利要求4所述模型训练方法,其特征在于,所述步骤4和步骤5循环执行多次。
8.如权利要求4所述模型训练方法,其特征在于,所述步骤2中的预处理为:将训练数据集中的光场子孔径图像剪裁,并使用双三次下采样方法生成图像块,将图像块转换为YCbCr形式,并且提取原始图像中Y通道的数据;最后将数据保存为h5格式。
9.如权利要求6所述模型训练方法,其特征在于,所述步骤7的训练方法具体为:
S71.定义生成网络和判别网络的损失函数,设置损失函数的各个阶段值;
S72.固定生成网络,图像输出结果与步骤2中对应的预处理后的训练数据输入判别网络,根据判别网络损失函数优化判别网络,达到阶段值后停止训练判别网络;
S73.固定判别网络,训练生成网络,根据生成网络损失函数优化生产网络,达到阶段值后停止训练生成网络;
更换损失函数阶段值,循环进行步骤S72和S73,直到训练结束。
10.如权利要求9所述模型训练方法,其特征在于,所述生成网络损失函数和判别网络LG和Ld为:
LG=Lc+0.2*Lper+0.3*Le+0.1*LG_adv
LD=LD_adv
其中LG表示生成网络损失函数,LD表示判别网络损失函数,Lc表示像素损失,LPER表示感知损失,Le表示边缘损失,LG_adv表示生成对抗损失,LD_adv表示判别对抗损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651633.8A CN116523757A (zh) | 2023-06-02 | 2023-06-02 | 基于生成对抗网络的光场图像超分辨率模型及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651633.8A CN116523757A (zh) | 2023-06-02 | 2023-06-02 | 基于生成对抗网络的光场图像超分辨率模型及其训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116523757A true CN116523757A (zh) | 2023-08-01 |
Family
ID=87392335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310651633.8A Pending CN116523757A (zh) | 2023-06-02 | 2023-06-02 | 基于生成对抗网络的光场图像超分辨率模型及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523757A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689822A (zh) * | 2024-01-31 | 2024-03-12 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
-
2023
- 2023-06-02 CN CN202310651633.8A patent/CN116523757A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689822A (zh) * | 2024-01-31 | 2024-03-12 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
CN117689822B (zh) * | 2024-01-31 | 2024-04-16 | 之江实验室 | 一种三维模型构建方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020989B (zh) | 一种基于深度学习的深度图像超分辨率重建方法 | |
CN109447919B (zh) | 结合多视角与语义纹理特征的光场超分辨率重建方法 | |
CN115222601A (zh) | 基于残差混合注意力网络的图像超分辨率重建模型及方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN110880162B (zh) | 基于深度学习的快照光谱深度联合成像方法及系统 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
CN114972746B (zh) | 一种基于多分辨率重叠注意力机制的医学影像分割方法 | |
CN111696035A (zh) | 一种基于光流运动估计算法的多帧图像超分辨率重建方法 | |
CN112950475A (zh) | 一种基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN113538243B (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN116523757A (zh) | 基于生成对抗网络的光场图像超分辨率模型及其训练方法 | |
CN116152120A (zh) | 一种融合高低频特征信息的低光图像增强方法及装置 | |
CN117274760A (zh) | 一种基于多尺度混合变换器的红外与可见光图像融合方法 | |
Tarasiewicz et al. | A graph neural network for multiple-image super-resolution | |
CN116703752A (zh) | 融合近红外的Transformer结构的图像去雾方法及装置 | |
CN116091314A (zh) | 一种基于多尺度深度单应性的红外图像拼接方法 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 | |
KR102092205B1 (ko) | 초해상화, 역톤매핑 및 동시 초해상화-역톤매핑 처리된 다중 출력 이미지를 생성하는 이미지 처리 방법 및 장치 | |
CN112749712B (zh) | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 | |
CN114359041A (zh) | 一种光场图像空间超分辨率重建方法 | |
CN111489405B (zh) | 基于条件增强生成对抗网络的人脸草图合成系统 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN117315241A (zh) | 一种基于transformer结构的场景图像语义分割方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
CN115330655A (zh) | 一种基于自注意力机制的图像融合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |