CN117557476A - 一种基于fctft的图像重建方法及其系统 - Google Patents
一种基于fctft的图像重建方法及其系统 Download PDFInfo
- Publication number
- CN117557476A CN117557476A CN202311320622.8A CN202311320622A CN117557476A CN 117557476 A CN117557476 A CN 117557476A CN 202311320622 A CN202311320622 A CN 202311320622A CN 117557476 A CN117557476 A CN 117557476A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- reconstruction
- hyperspectral
- fctft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 25
- 230000004044 response Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000000701 chemical imaging Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100033592 Calponin-3 Human genes 0.000 description 1
- 101000945410 Homo sapiens Calponin-3 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于FCTFT的图像重建方法及其系统。为了解决从RGB图像重建高光谱图像中受限于高光谱图像之间的光谱相似性和长程依赖性,往往不能达到最佳重建效果的问题,提出带有傅里叶变换网络的全尺度连接Trans former模型FCTFT,利用Transformer的注意力机制捕获图像的全局特征,采用全尺度连接策略,将特征提取层的信息与全局信息连接起来,提取图像的细节信息,最后引入傅里叶模块这种频率维度的学习策略,进一步解决重建图像质量问题,提高重建图像视觉效果。
Description
技术领域
本发明属于图像处理技术领域,涉及一种基于FCTFT的图像重建方法及其系统。
背景技术
高光谱图像(HSI)是指通过多通道图像捕获特定场景不同波段的光谱信息。高光谱图像能提供物体在不同波段下的光谱特征,这些光谱特征可以用来确定物体的化学成分、结构和形态等信息,因此高光谱图像比普通RGB图像含有更丰富的场景信息和光谱特征,也是很多领域的热门信息源。然而传统的获取高光谱图像的方法是扫描法,扫描法需要通过光谱仪扫描物体或场景来捕获高光谱图像,不仅扫描过程缓慢,操作方法复杂,还需要高昂的硬件成本,研究新型的低成本的高光谱成像技术也是当前领域的热门方向。
随着计算机科学技术的发展,深度学习方法在计算机视觉任务中取得了极其优秀的表现,近年来热门的快照式高光谱成像技术中含有以深度学习为基础的高光谱重建方法,然而在不考虑成像质量的情况下,一个独立的快照式高光谱成像系统可能需要花费数千至数万美元,而且成像质量对实验条件的依赖性很大。为了降低获取高光谱图像的成本,研究者们发现RGB图像的像素值和其对应的高光谱图像的反射值之间存在着某种复杂的关联映射,于是许多研究者开始研究如何利用廉价易得的RGB图像重建出高光谱图像。然而当高光谱反射率值被转换为RGB值时,会丢失大量的信息,因此从RGB图像中重建HSI是一项非常具有挑战性的工作。近年来基于CNN的深度学习方法已经被用于重建高光谱图像,同时深度学习方法也成为了得到从RGB图像到高光谱图像的映射的主要工具。
然而,这些方法受限于HSI之间的光谱相似性和长程依赖性,往往不能达到最佳效果。因此,提出一种新的有效算法来解决这个问题是非常重要的。受NLP(自然语言处理)中Transformer的启发,视觉Transformer在成像过程领域也取得了巨大成功。Transformer中的多头关注机制具有更好的远程依赖性和局部自相似行,可以有效地弥补CNN的不足。在图像修复领域有基于transformer领域取得了很好的效果。同时,又有MST++网络第一个从RGB恢复出高光谱的transformer模型。但是他们都是主要考虑了时域的信息,没有更进一步考虑一些频域的高频细节信息。
所以需要提出一个轻量而高效的Transformer网络架构,能够更有效地从频域和时域两个提取特征,以解决RGB到高光谱重建的问题。
发明内容
本发明的目的是解决从RGB图像重建高光谱图像中受限于高光谱图像之间的光谱相似性和长程依赖性,往往不能达到最佳重建效果的问题,提出一种基于FCTFT的高光谱图像重建方法及其系统,利用Transformer的注意力机制捕获图像的全局特征,采用全尺度连接策略,将特征提取层的信息与全局信息连接起来,提取图像的细节信息,最后引入傅里叶模块这种频率维度的学习策略,进一步解决重建图像质量问题,提高重建图像视觉效果。
第一方面,本发明提出一种基于FCTFT的高光谱图像重建方法,包括以下步骤:
步骤S1:构建数据集,按照比例划分为训练集、测试集、验证集:
所述数据集包括带有标签的RGB图像,所述标签为对应高光谱图像;
步骤S2:构建带有傅里叶变换网络的全尺度连接Transformer模型FCTFT,并利用数据集进行训练、测试和验证;
步骤S3:利用训练、测试和验证好的带有傅里叶变换网络的全尺度连接Transformer模型FCTFT实现对RGB图像的高光谱重建。
第二方面,本发明提出一种高光谱图像重建系统,包括:
数据采集模块,获取待重建的RGB图像;
重建模块,利用训练、测试和验证好的带有傅里叶变换网络的全尺度连接Transformer模型FCTFT实现对RGB图像的高光谱重建。
第三方面,本发明提出一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。
第四方面,本发明提出一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。
本发明的有益效果:
本发明提出带有傅里叶变换网络的全尺度连接Transformer模型FCTFT用于从RGB图像重建出高光谱图像,通过对U-net transformer加入全连接的重建机制,可以对更好得提取出高光谱一些高频的细节信息,以提高不同场景的高光谱重建的鲁棒性,同时又对高光谱细节纹理信息有更高重建精度。
本发明引入傅里叶重构模块在频率维度将高光谱映射到频域进行学习,进一步提取高光谱的一些高频锐利的信息,得到频域高尺度细节特征信息,使重建结果更平滑、更自然。将傅里叶重建结果和全尺度连接的结果,以及原始的结果做融合可以得到高质量的高光谱重建结果,相比于在CAVE、KAIST和NT IRE2022光谱重建挑战赛数据集上取得了最先进的成果,证明了其性能的优越性。
附图说明
图1:带有傅里叶变换网络的全尺度连接Transformer模型(FCTFT)的整体网络结构。
图2:全尺度连接Transformer(FCF)模块的网络结构;其中(a)FCF结构;(b)MLP模块;(c)注意力模块。
图3:FCF模块的不同连接方式;其中(a)No-con,其采用U型模型;(b)M et1-con,其在(a)基础上包含下采样特征;(c)Met2-con,其在(a)基础上包含上采样特征。
图4:不同算法对来自CAVE数据集中,尺寸为256×256的玩偶进行高光谱重建的仿真实验结果,展示了每种算法重建高光谱图像的PSNR和SSIM结果。RGB参考是光谱映射结果,包含520nm、590nm和650nm。其中图4-1为真实数据集重建的结果;图4-2为真实数据集重建的结果所选取的三个光谱响应曲线的部分;图4-3为图4-1所选区域的不同波段局部放大结果;图4-4,图4-5,图4-6分别是图4-2所选区域a,b,c的光谱响应曲线。
图5:不同算法对三个选定场景的仿真实验结果,PSNR/SSIM是映射到R GB场景后计算得到的。
图6:不同算法对范例场景的仿真实验结果,尺寸为256×256,展示了每个算法重建高光谱图像的PSNR和SSIM结果。其中图6-1为仿真数据的RGB参考的结果;图6-2为图6-1对应的场景的多种算法放大对比图;图6-3为图6-1整个场景的光谱响应曲线图。
图7:FCTFT算法对ADAK_1k_0921图像进行高光谱重建的实验结果。其中(a)是RGB图像,(b)是以10nm为步长的从400nm-700nm的所有重建高光谱图像,第一行是从400nm-500nm,第二行是从510nm-610nm,第三行是620-700nm。
图8:不同算法对NTIRE2022数据集中尺寸为256×256的范例图像的高光谱重建结果,展示了重建高光谱图像的PSNR和SSIM结果,包含520nm,590nm和650nm三个波段。其中图8-1为真实数据集重建的结果;图8-2为真实数据集重建的结果所选取的三个光谱响应曲线的部分;图8-3为图8-1所选区域的不同波段局部放大结果;图8-4,图8-5图8-6分别是图8-2所选区域a,b,c的光谱响应曲线。
图9:不同算法对NTIRE2022数据集进行真实实验的高光谱重建结果,展示了重建高光谱图像的PSNR和SSIM结果。
图10:不同算法对NTIRE2022数据集中尺寸为256×256的范例图像的高光谱重建结果,展示了重建高光谱图像的PSNR和SSIM结果,包含520nm,590nm和650nm三个波段。其中图10-1为真实数据数据RGB参考结果;图10-2为图10-1对应的场景的多种算法放大对比图;图10-3为图10-1整个场景的光谱响应曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种基于FCTFT的高光谱图像重建方法,包括以下步骤:
步骤S1:根据公开数据集(CAVE、KAIST、NTIRE2022)构建数据集,按照比例划分为训练集、测试集、验证集:
所述数据集包括带有标签的RGB图像,所述标签为对应高光谱图像;
步骤S2:构建带有傅里叶变换网络的全尺度连接Transformer模型(FCTF T),并利用数据集进行训练、测试和验证;
步骤S3:利用训练、测试和验证好的带有傅里叶变换网络的全尺度连接Transformer模型(FCTFT)实现对RGB图像的高光谱重建;
带有傅里叶变换网络的全尺度连接Transformer模型(FCTFT)的输入采用与数据集相同RGB相机拍摄得到的RGB图像,例如数据集NTIRE2022采用的RGB相机为BaslerAce2,型号A2a5320-23ucBAS。
如图1所示,所述带有傅里叶变换网络的全尺度连接Transformer模型(FC TFT)包括第一卷积块、三个并行分支、融合模块;
所述第一卷积块接收RGB图像,通过一次卷积操作,转换为图像张量Z1;
所述三个并行分支包括第一分支、第二分支、第三分支;所述第一分支将所述第一卷积块输出的图像张量Z1跳级连接至后续的融合模块;所述第二分支依次包括N个串联的全尺度连接Transformer(FCF)模块、第二卷积块;N≥2;所述第三分支包括傅里叶重构(FRM)模块;
所述融合模块用于将经所述第一分支跳级连接的图像张量Z1、所述第二卷积块输出的图像张量Z2、所述傅里叶重构(FRM)模块输出的图像张量Z3进行融合;
N个全尺度连接Transformer(FCF)模块结构相同;
如图2每个全尺度连接Transformer(FCF)模块是将现有U-net网络的编码层和解码层中每层操作前使用transformer编码;编码层的第n层通过下采样与解码层的第n+1层的输入进行特征融合,再送入解码层的第n层;1≤n≤N-2,N表示编码层的层数;编码层的第N层通过上采样与解码层的第1层的输入进行特征融合;
所述特征融合采用卷积操作。
首先,构建U-Net Transformer架构,具体是:
采用U-net网络作为基本框架,包括编码层和解码层;所述编码层包括两级下采样部分,所述解码层包括两级上采样部分,同时每一级采样前都使用tra nsformer进行编码。
第一级下采样,先对输入图像进行transformer,使用卷积操作进行两倍下采样,使得通道数变为原来的两倍的同时,图像的尺寸长度和宽度减小原来的一半,同时对采样的结果进行transformer编码。相似得,第二级下采样使用卷积进行两倍下采样,使得通道数在第一级采样的基础上变成第一的两倍,图像的长度和宽度变为第一次采样后的一半,同时对采样后的结果再进行transformer编码。
接下来是两级上采样的。第一级上采样是在第二级transformer编码的基础上使用两倍上采样,使得通道数变为第二次下采样后的一半,同时图片的长度和宽度变为原来的两倍,同时对采样后的结果进行transformer编码。之后在此基础上再进行一次上采样,就可以得到和原图片相同的尺寸和通道的重建图片,并对这个结果进行transformer编码。
然后,在U-Net Transformer架构的基础上,本发明提出了全尺度的连接。将U-Net的经过transformer编码的原始图像,使用卷积进行两倍下采样,并将这部分的结果直接和经过第一次上采样的结果进行特征融合。第二次下采样经过transformer编码的结果,直接进行四倍上采样直接和解码层最后输出的结果进行特征融合。
其中Transformer依次包括第一归一化层、注意力机制层、第二归一化层、MLP层;
所述第一归一化层对输入特征图进行归一化处理后,输入至注意力机制层;
所述注意力机制层具体是:
所述注意力机制层接收到所述第一归一化层输出的特征X∈RH×W×C,然后通过线性投影K、Q和V,产生线性全局相关:
K=XLK,Q=XLQ,V=XLV#(1)
其中LK,LQ,LV∈RC×C作为可学习参数。
然后将K、Q、V沿通道维度分成多头,计算出注意力机制,并加入位置编码。该过程的流程描述如下:
Mulatt=Concat(Att1,Att2,Att3,…,AttN)#(3)
MSA=Mulatt+E(V)#(4)
其中α是一个可学习的缩放参数,Vm,Qm是按通道拆分的线性投影,控制K和Q的点积;Attm是第m个单头注意力机制;Concat表示将多个注意力机制按照对应的维度进行拼接;Mulatt是多头注意力;E(V)是位置编码;MSA是由Mulatt和E(v)相加组成的一个模块。
所述MLP模块使用两个1×1卷积,两个Gelu激活函数,以及一个3×3卷积,以更好地提取信息。
接下来将对全尺寸连接模块进行解释。所得到的特征将会通过跳级连接使编码层和解码层在Transformer块内部联系起来。每个注意力通过跳级连接的解码层都有编码层的大尺度特征和解码层的小尺度信息,所以细粒度的细节和组粒度的语义都能被全面捕捉。例如,图3的Met1-con部分说明了Dn2(特征解码)层特征的构建过程。En1∈RH×W×C(特征编码层),(特征编码层)和/>(特征编码层)的特征映射可以在Transformer编码后轻松得到。那么Dn2可以表述为:
Dn2=conv2([conv1(En1),En2,Dconv(En3)])#(5)
构建Dn1(特征解码层1)层特征的详细过程见图3中的Met2-con部分。对于从编码层3到解码层2(En3-Dn2)的连接,我们可以使用2×2的去卷积来获得特征;对于从编码层2到解码层2(En2-Dn2)的连接,我们直接串联特征映射;对于从编码层1到解码层2(En1-Dn2)的连接,我们使用3×3的卷积进行下抽样。
然后通过1×1的卷积变换器通道将特征融合。得到一个与En2相同大小的特征映射。Dn2包含来自编码器层的变形器的低级特征和来自解码器层的变形器的高级特征。我们将编码后的Transformerblock3特征的上游采样直接连接到解码后的Dn1层,这样可以减少Dn2层跳接特征融合后的上游采样造成的特征损失。Dn1可以表述为:
Dn1=conv2([En1,Dconv1(En2),Dconv2(En3)])#(6)
其中conv2为1×1的卷积,Dconv1和conv2分别为2×2和4×4的卷积。特征全域连接可以更有效地提取粗粒度和细粒度的图像特征,获得更好的重建效果。
虽然以前的Transformer重建模块已经能够恢复原有的全局特征,但是,对于图像的一些高频细节,如图像边缘信息、图像锯齿状纹理信息和实际图像中的各种噪声,Transformer模块并不能表现出最佳效果。因此,提出了FRM来恢复高频细节并抑制重建过程中的噪声影响。给定一个N个复数的一维序列x[n],0≤n≤N-1,一维离散傅里叶变换(DFT)可以表述为:
同样地,二维DFT也可以被扩展。给定一个二维信号X[U,V],0≤m≤M-1,0≤n≤N-1,二维DFT可以得到如下结果:
如图1FRM部分所示,让Z∈RH×W×C为输入张量,FRM的算法过程如下所示:
对于FRM的过程的说明,所述傅里叶重构(FRM)模块用于从使用卷积从RGB图像重建的高光谱图像中获取频域特征细节;具体是对输入经过卷积之后的图片张量Z1∈RH×W×C,进行二维傅里叶变换(rfft2),见公式(8);
其中X[W1,W2]表示经过频域变换后的傅里叶值;x[m,n]表示图像采样得到离散信号;j是虚数单位;M表示图像的宽度,N表示图形的高度,u表示横轴的频域变量;v表示纵轴的频域变量;
将X[W1,W2]进行实部和虚部的分解,得到虚部信息ximag和对应的实部信息xreal;所述实部和虚部的分解为常规技术,故不详解。
然后利用第一卷积块net1和第二卷积块net2分别对实部信息xreal和虚部信息ximag进行两次卷积操作,以捕捉两个维度的信息,得到xreal’、ximag’。
对xreal’、ximag’进行取复数操作,将两部分分量组合成复数形式,最后经过傅里叶反变换ifft2得到重建高光谱图像Z。
总得来说,对于一个输入特征映射,首先对图像进行傅里叶变换,以获得其在频域的特征形式。特征的实部和虚部主要分别包含图像的水平和垂直信息特征。因此,我们设计了两个卷积的串联,对实部和虚部分别进行1×1的卷积,以捕捉两个维度的信息。然后,反傅里叶变换可以恢复原始数据。所提出的傅里叶重建模块可以更好地提取图像的高频细节,并避免一些视觉差异,如边缘锐化。
带有傅里叶变换网络的全尺度连接Transformer模型(FCTFT)的损失函数:
使用MRAEloss作为损失函数L(Ω),其定义式如下所示:
其中是重建的高光谱图像,N是图像上像素值的数量,Y∈RH×W×B是原始的高光谱图像。
MRAE用于评估重建波段和真实波段的像素水平误差,其数值越小,表示重建质量越好。
评估指标:为了评估所提出的模型FCTFT和其他开源SOTA算法的性能,采用了平均相对绝对误差(MRAE)、均方根误差(RMSE)、峰值信噪比(PSNR)和结构相似性(SSIM)作为重建效果的评估指标,采用了计算成本(FLOPS)作为算法性能相对参考指标。
在Pytorch的框架下实现了所提出的算法,模型使用Adam求解器用于优化。对于仿真数据集,采用了随机旋转和翻转来增强数据;对于仿真数据集,将RGB图像和高光谱图像对的尺寸裁剪到128×128。模型在单个GPU 2080Ti上进行训练,训练时长为80小时。
仿真数据集:CAVE数据集,有31个波段,以10纳米为间隔,覆盖了400纳米-700纳米,尺寸为512×512×31。KAIST数据集,有31个波段,以10纳米为间隔,覆盖了420纳米-720纳米,尺寸为2704×3376×31。
真实数据集:NTIRE2022光谱重建挑战赛数据集,有1000对RGB图像和对应的高光谱图像,以10纳米为间隔,覆盖了400纳米-700纳米,RGB图像尺寸为482×512×3,高光谱图像尺寸为480×512×31。
在NTIRE2022数据集上进行了对比实验和消融实验:
通过对比FCF模块的不同连接方式,以评估不同连接方式的有效性。图1的FCF模块中显示了两种连接方式的完全连接。半连接方法1(Met1-con)和半连接方法2(Met2-con)如图3所示。此外,还用U形模型的情况作为比较(No-con)。表4显示了四种不同连接模式的实验结果。可以看出,Met-con2跳过连接比Met-con1跳过连接能更有效地提高重建质量。两种跳跃连接的效果比只采用其中一种好。可以看到,在不明显增加GFLOPS的情况下,全尺度连接重建网络可以有效地提高重建的质量。
在本发明FCTFT的基础上去除FRM模块,以比较本发明FCTFT在有无F RM模块情况下的重建结果,从而验证FRM模块的有效性,此外,为了更有效地解释FRM模块的功能,还在MST++中引入了傅里叶重建模块。重建结果如表5所示,对于同种算法,引入傅里叶重建模块使得四项指标均有提升,可以得出傅里叶重建模块可以有效地提高重建性能。
结果对比:
将本发明FCTFT与另外的九种现有SOTA方法进行了对比,包括一种SCI重建算法(HDNet),四种SR算法(MST++,HSCNN++,AWAN,CNN3d)和四种自然图像修复模型(MIRNet,MPRNet,Restormer,HINet)。
表1与SOTA算法在CAVE数据集上的重建结果比较
表2与SOTA算法在KAIST数据集上的重建结果比较
表3与SOTA算法在NTIRE2022光谱重建挑战赛数据集上的重构结果比较
表4不同的连接方式对重建结果的影响比较
表5傅里叶模块对重建结果的影响比较
仿真数据集实验:不同的算法在CAVE数据集和KAIST数据集的重建结果和比较结果如表1和表2所示。图5展示了通过CIE1964将光谱图像转换成合成RGB(sRGB)的情况。可以看出,本发明FCTFT可以获得更好的视觉表现效果。图4和图6分别显示了光谱响应曲线和重建的兴趣区。对于在三个不同位置选定的感兴趣区域,本发明FCTFT获得了最好的光谱结果,更好地显示详细的重建特征。
真实数据集实验:不同的算法在NTIRE2022光谱重建挑战赛数据集的重建结果如表3所示。表3比较了本发明FCTFT与NTIRE 2022挑战赛真实数据集中的其他SOTA算法。图9显示了通过光谱响应曲线将重建的高光谱映射到R GB的重建结果。尽管其他一些方法也获得了很好的性能,但平均而言,本发明FCTFT在不同程度的噪声下的真实场景中具有最好的重建质量。图8和图10显示了重建的感兴趣区域和光谱响应曲线。从这些图中可以看出,本发明FCTFT的光谱曲线可以产生更清晰的边缘,更好的空间平滑度,以及更好的视觉效果。同时,本发明FCTFT光谱曲线与地面实况之间也可以达到较高的光谱相关性和一致性。图7显示了ADAK 1K 0921高光谱数据的重建波段的结果。重建后的波段清晰而不模糊。这是因为本发明FCTFT在有效捕捉粗粒度和细粒度特征的同时,考虑到了光谱依赖性和自相似性。此外,傅里叶重建模块也参与其中,以提高来自频域的重建质量,这使得重建的边缘更清晰,细节更详细,整体平滑度更好。为了更好地展示本发明FCTFT的优势,使用MRAE、RMSE、PSN R和SSIM来评价本发明FCTFT的结果,本发明FCTFT可以在这四个评价指标上取得最佳性能。此外,用FLOPS(计算成本)来评价输入尺寸为256×256的计算成本,可以看到本发明FCTFT在相对较低的FLOPS下效果最好。
Claims (10)
1.一种基于FCTFT的高光谱图像重建方法,其特征在于包括以下步骤:
步骤S1:构建数据集,按照比例划分为训练集、测试集、验证集:
所述数据集包括带有标签的RGB图像,所述标签为对应高光谱图像;
步骤S2:构建带有傅里叶变换网络的全尺度连接Transformer模型FCTFT,并利用数据集进行训练、测试和验证;
步骤S3:利用训练、测试和验证好的带有傅里叶变换网络的全尺度连接Transformer模型FCTFT实现对RGB图像的高光谱重建。
2.根据权利要求1所述方法,其特征在于所述带有傅里叶变换网络的全尺度连接Transformer模型FCTFT包括第一卷积块、三个并行分支、融合模块;
所述第一卷积块接收RGB图像,通过一次卷积操作,转换为图像张量Z1;
所述三个并行分支包括第一分支、第二分支、第三分支;所述第一分支将所述第一卷积块输出的图像张量Z1跳级连接至后续的融合模块;所述第二分支依次包括N个串联的全尺度连接Transformer模块、第二卷积块,N≥2;所述第三分支包括傅里叶重构模块;
所述融合模块用于将经所述第一分支跳级连接的图像张量Z1、所述第二卷积块输出的图像张量Z2、所述傅里叶重构模块输出的图像张量Z3进行融合。
3.根据权利要求2所述方法,其特征在于N个全尺度连接Transformer模块结构相同;
每个全尺度连接Transformer模块是将现有U-net网络的编码层和解码层中每层操作前串联一个transformer编码;编码层的第n层通过下采样与解码层的第n+1层的输入进行特征融合,再送入解码层的第n层,1≤n≤N-2,N表示编码层的层数;编码层的第N层通过上采样与解码层的第1层的输入进行特征融合。
4.根据权利要求3所述方法,其特征在于所述特征融合采用卷积操作。
5.根据权利要求3所述方法,其特征在于所述transformer编码依次包括第一归一化层、注意力机制层、第二归一化层、MLP层;
所述第一归一化层对输入特征图进行归一化处理后,输入至注意力机制层;
所述注意力机制层具体是:
所述注意力机制层接收到所述第一归一化层输出的特征X∈RH×W×C,然后通过线性投影K、Q和V,产生线性全局相关:
K=XLK,Q=XLQ,V=XLV#(1)
其中LK,LQ,LV∈RC×C作为可学习参数;
然后将K、Q、V沿通道维度分成多头,计算出注意力机制,并加入位置编码;该过程的流程描述如下:
Mulatt=Concat(Att1,Att2,Att3,...,AttN)#(3)
MSA=Mulatt+E(V)#(4)
其中α是一个可学习的缩放参数,是按通道拆分的线性投影,控制K和Q的点积;Attm是第m个单头注意力机制;Concat表示将多个注意力机制按照对应的维度进行拼接;Mulatt是多头注意力;E(V)是位置编码;MSA是由Mulatt和E(v)相加组成的一个模块;
所述MLP模块包括两个1×1卷积,两个Gelu激活函数,以及一个3×3卷积。
6.根据权利要求2所述方法,其特征在于所述傅里叶重构模块用于从使用卷积从RGB图像重建的高光谱图像中获取频域特征细节;具体是对输入经过卷积之后的图片张量Z1∈RH ×W×C,进行二维傅里叶变换,见公式(8);
其中X[W1,W2]表示经过频域变换后的傅里叶值;x[m,n]表示图像采样得到离散信号;j是虚数单位;M表示图像的宽度,N表示图形的高度,u表示横轴的频域变量;v表示纵轴的频域变量;
将X[W1,W2]进行实部和虚部的分解,得到虚部信息ximag和对应的实部信息xreal;
然后利用第一卷积块net1和第二卷积块net2分别对实部信息xreal和虚部信息ximag进行两次卷积操作,以捕捉两个维度的信息,得到xreal’、ximag’;
对xreal’、ximag’进行取复数操作,将两部分分量组合成复数形式,最后经过傅里叶反变换ifft2得到重建高光谱图像Z。
7.根据权利要求1或2所述方法,其特征在于带有傅里叶变换网络的全尺度连接Transformer模型FCTFT的损失函数:
其中是重建的高光谱图像,N是图像上像素值的数量,Y∈RH×W×B是原始的高光谱图像。
8.一种高光谱图像重建系统,其特征在于包括:
数据采集模块,获取待重建的RGB图像;
重建模块,利用训练、测试和验证好的权利要求1-7任一项所述的带有傅里叶变换网络的全尺度连接Transformer模型FCTFT实现对RGB图像的高光谱重建。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320622.8A CN117557476A (zh) | 2023-10-12 | 2023-10-12 | 一种基于fctft的图像重建方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320622.8A CN117557476A (zh) | 2023-10-12 | 2023-10-12 | 一种基于fctft的图像重建方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557476A true CN117557476A (zh) | 2024-02-13 |
Family
ID=89813639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311320622.8A Pending CN117557476A (zh) | 2023-10-12 | 2023-10-12 | 一种基于fctft的图像重建方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557476A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726916A (zh) * | 2024-02-18 | 2024-03-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
-
2023
- 2023-10-12 CN CN202311320622.8A patent/CN117557476A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726916A (zh) * | 2024-02-18 | 2024-03-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
CN117726916B (zh) * | 2024-02-18 | 2024-04-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113362223B (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
CN111127374B (zh) | 一种基于多尺度密集网络的Pan-sharpening方法 | |
Hsu et al. | DCSN: Deep compressed sensing network for efficient hyperspectral data transmission of miniaturized satellite | |
CN111652804B (zh) | 基于膨胀卷积金字塔与瓶颈网络的超分辨率重建方法 | |
CN117557476A (zh) | 一种基于fctft的图像重建方法及其系统 | |
CN113516601A (zh) | 基于深度卷积神经网络与压缩感知的图像恢复技术 | |
CN109118428B (zh) | 一种基于特征增强的图像超分辨率重建方法 | |
CN114494023B (zh) | 一种基于运动补偿与稀疏增强的视频超分辨率实现方法 | |
CN103020940B (zh) | 一种基于局部特征转换的人脸超分辨率重建方法 | |
CN115018750A (zh) | 中波红外高光谱及多光谱图像融合方法、系统及介质 | |
CN109146785A (zh) | 一种基于改进稀疏自动编码器的图像超分辨率方法 | |
CN116416156A (zh) | 一种基于Swin Transformer的医学图像去噪方法 | |
CN115880158A (zh) | 一种基于变分自编码的盲图像超分辨率重建方法及系统 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN111882512B (zh) | 基于深度学习的图像融合方法、装置、设备和存储介质 | |
CN114511470B (zh) | 一种基于注意力机制的双分支全色锐化方法 | |
CN112150360A (zh) | 一种基于稠密残差网络的ivus图像超分辨率重建方法 | |
CN116862765A (zh) | 一种医学影像超分辨率重建方法及系统 | |
CN116797541A (zh) | 一种基于Transformer的肺部CT图像超分辨率重建方法 | |
Zhang et al. | Super-resolution reconstruction algorithms based on fusion of deep learning mechanism and wavelet | |
CN115861749A (zh) | 一种基于窗口交叉注意力的遥感图像融合方法 | |
CN116029908A (zh) | 基于跨模态和跨尺度特征融合的3d磁共振超分辨率方法 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
Wang et al. | Infrared and Visible Image Fusion Based on Autoencoder Composed of CNN-Transformer | |
CN115375537A (zh) | 非线性感知多尺度的超分辨率图像生成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |