CN116665063B - 基于自注意力和深度卷积并行的高光谱重建方法 - Google Patents
基于自注意力和深度卷积并行的高光谱重建方法 Download PDFInfo
- Publication number
- CN116665063B CN116665063B CN202310926894.6A CN202310926894A CN116665063B CN 116665063 B CN116665063 B CN 116665063B CN 202310926894 A CN202310926894 A CN 202310926894A CN 116665063 B CN116665063 B CN 116665063B
- Authority
- CN
- China
- Prior art keywords
- module
- layer
- feature map
- attention
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005259 measurement Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims abstract description 13
- 235000001466 Ribes nigrum Nutrition 0.000 claims abstract description 12
- 241001312569 Ribes nigrum Species 0.000 claims abstract description 12
- 239000006185 dispersion Substances 0.000 claims abstract description 12
- 230000006835 compression Effects 0.000 claims abstract description 5
- 238000007906 compression Methods 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 18
- CVKBYFCJQSPBOI-UHFFFAOYSA-N methyl 3-[(4-methylphenyl)sulfonylamino]benzoate Chemical compound COC(=O)C1=CC=CC(NS(=O)(=O)C=2C=CC(C)=CC=2)=C1 CVKBYFCJQSPBOI-UHFFFAOYSA-N 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000004873 anchoring Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 19
- 238000013135 deep learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于自注意力和深度卷积并行的高光谱重建方法,属于计算机视觉图像处理技术领域。包括以下步骤:在编码阶段,利用CASSI光学系统进行压缩采样得到二维测量值,再经过反转色散过程,获得初始化信号;解码阶段,采用本方法提出的基于transformer和CNN并行架构的重建算法将2D压缩图像重建为3D高光谱图像,通过训练网络学习二维压缩测量数据到原始数据的逆变换,进一步使用训练好的模型重建压缩感知高光谱图像,实现了压缩感知高光谱图像的快速、精确重建,与传统迭代重建算法相比,在重建质量上有所提高,并且在重建高光谱数据上的计算时间上有显著提高,远快于传统算法。
Description
技术领域
本发明属于计算机视觉图像处理领域,具体涉及基于自注意力和深度卷积并行的高光谱重建方法。
背景技术
高光谱成像是近年来计算机视觉领域的一个热门研究方向,但高维高光谱数据的存储和传输带来了挑战。为了应对这个问题,压缩感知成为一种新兴的采样方法,它通过线性投影同时采样和压缩信号,从而降低了数据的编码复杂度。压缩感知的目标是利用少量的压缩测量来重建原始高维信号,以实现高光谱数据的有效传输和处理。
传统的压缩感知采样方法使用固定的变换函数和有限尺寸的光学编码器对高维信号进行采样和压缩。然后,经典的重建算法依赖于信号在某种变换域具有稀疏性的假设,通过求解稀疏编码问题来还原原始信号。然而,这些传统方法需要耗费大量时间来进行迭代优化,并且在低采样率下重建质量较差。近年来,受深度学习方法的启发,学者们提出了基于深度学习的压缩感知图像重建方法。这些方法通过数据驱动的方式,让深度神经网络直接学习从稀疏先验到深度网络先验的映射关系,从而实现从稀疏先验到深度网络先验的转变。通过这种方式,重建过程更加高效,并且在低采样率下也能获得更好的重建质量。
这种基于深度学习的方法,主要采用掩模和偏移测量之间的内积作为输入。该方法破坏了输入的高光谱信息,并且没有充分探索掩码的引导效果,导致改进有限。近年来,Transformer已被引入计算机视觉领域。Transformer中的多头自注意模块擅长捕捉非局部相似性和长期依赖性。这一优势可以很好的解决高光谱图像重建中上述基于深度学习方法的局限性。虽然已经获得较好的重建效果,但重建性能仍有较大的提升空间,仍需要进行进一步研究。
上述现有技术还存在以下问题:
1.高光谱图像具有丰富的图像信息。在计算自我注意力时,如果没有足够指导的原始Transformer可能很容易处理许多低保真度和信息量较小的图像区域,这可能会降低模型效率,从而影响特征提取的能力。
2.高光谱图像具有丰富的图像信息。虽然Transformer局部窗口自我注意在视觉任务中表现显著,但它仍存在接受域有限和建模能力弱的问题。
发明内容
本发明针对现有技术中的问题,提供了基于自注意力和深度卷积并行的高光谱重建方法,显著提高光谱图的重建质量,并且在计算时间上比传统算法更有优势。为解决以上技术问题,本发明提供如下技术方案:基于自注意力和深度卷积并行的高光谱重建方法,包括如下步骤:
S1、编码阶段:对原始高光谱图像压缩采样得到的二维测量值Y进行反转色散,将该二维测量Y值向后偏移,获得初始化信号;
S2、解码阶段:包括:
S2-1、构建基于transformer和CNN并行架构的编码器,将初始化信号输入至该编码器中提取特征并融合,得到特征图;
S2-2、将特征图输入至瓶颈网络中,进一步提取特征并融合,得到最终特征图;
S2-3、将最终的特征图输入至解码器中得到重建后的高光谱图像。
进一步地,前述的步骤S1包括如下子步骤:
S101、利用CASSI光学系统中二维编码孔径M对原始高光谱图像预设波长的HSI信号进行编码得到 />,如下式:
,
其中,表示调制后的HSIs, />表示光谱通道,⊙表示元素乘法;H代表输入的三维HSI立方体的高,W代表输入的三维HSI立方体的宽,/>代表输入的三维HSI立方体的波长数;/>;
S102、然后利用CASSI光学系统中分散器对沿y轴剪切信号得到/>,如下式:,
其中,(u, v)为定位探测器平面上的坐标系,为第n个通道的波长,/>表示锚定波,/>为第n个通道在/>上的空间移动偏移量;
S103、整合有通道,将压缩为二维测量值Y,如下式:/>,
其中,,为CASSI光学系统获取到的二维测量值;/>,为传感探测器上成像过程中的二维测量噪声;
S104、将二维测量Y值向后偏移,获得初始化信号T,如下式:
。
进一步地,前述的步骤S2-1中,基于transformer和CNN并行架构的编码器包括3个顺序连接的特征提取模块,所述特征提取模块为:transformer模块连接的下采样模块;所述transformer模块是基于MSAB模块和CNN模块并行的架构,所述MSAB模块是顺序连接的第一Layer Norm模块、MSA模块、第二Layer Norm模块、Mask Attention模块,所述CNN模块是依次连接的三层卷积层。
进一步地,前述的transformer模块是基于MSAB模块和CNN模块并行的架构,如下式:
,
,
其中,MIX表示在MSAB分支和CNN分支之间实现特征混合的函数,表示Layer Norm层,/>为输入到transformer模块的特征信息,/>为MSAB模块和CNN模块特征混合后的特征信息,FFN表示前馈网络,它由两个线性层组成且中间有一个GELU层,而为transformer模块的输出特征信息。
进一步地,前述的CNN模块是依次连接的三层卷积层具体为:第一层卷积卷积核大小为1×1,激活函数为GELU;第二层卷积卷积核大小为5×5,激活函数为GELU;第三层卷积卷积核大小为1×1,激活函数为GELU。
进一步地,前述的MSA模块采用光谱式多头自注意机制,用于接收来自第一LayerNorm模块输出的特征图并进一步提取特征,包括如下步骤:
S2-A1、输入,被重塑为令牌X,然后将X线性投影到/>,, />:
,/>,/> ,其中,/> 是可学习参数;
S2-A2、沿着光谱通道维度将Q、K、V分别拆分为N个头如下:
,并计算每个头的自我注意力,如下:
,
其中表示/>的转置矩阵,/>是可学习参数,用于通过重新加权/>内的矩阵乘法/>来调整自注意/>;
S2-A3、将N个头的输出在频谱上进行级联操作,以进行线性投影,再添加位置嵌入,如下:
,
其中是可学习参数,/>是生成位置嵌入的函数,它包括两层3×3的卷积层、一个GELU激活层、以及重塑操作层;
S2-A4、将得到的MSA(X)进行重塑操作,得到MSA模块的输出特征图。
进一步地,前述的Mask Attention模块用于接收第二Layer Norm模块输出的特征图,并进行特征提取,具体包括如下子步骤:
S2-B1、给定掩码,采用色散过程移动M:
,
其中表示M的移位版本;
S2-B2、将输入至两个路径:下部路径是身份映射,以保留原始保真度信息;上部路径依次经历了两次3×3卷积层和GELU层,随后经历了1个5×5深度卷积层和1个sigmoid激活函数,以及与下部路径的内积,所述上部路径为:
,
其中,代表sigmoid激活函数,/>表示深度方向conv3×3层的映射函数,表示深度方向conv5×5层的映射函数,/>表示中间特征图;
S2-B3、进行反转色散过程并将向后移位,得到掩模注意力映射/>:
,
其中,索引频谱通道以匹配/>的维度。
进一步地,前述的步骤S2-2中的瓶颈网络是两个依次连接的transformer模块。
进一步地,前述的步骤S2-3中,所述解码器包括顺序连接的3个block,且3个block与所述特征提取模块一一对应;每个block依次为:上采样模块连接transformer模块;所述上采样模块与特征提取模块中的transformer模块对应。
进一步地,前述的步骤S2-3具体为:将得到的最终特征图输入到上采样模块中,用来提升特征图的大小,之后再将特征图输入到transformer模块中,得到特征图,之后再经过conv3×3卷积层生成残差高光谱图像/>,最后重构的高光谱图像,由R和T加和得到,即/>。
相较于现有技术,本发明采用以上技术方案的有益技术效果如下:本发明提出的基于自注意力和深度卷积并行的高光谱重建方法与之前传统的压缩感知重建算法相比,首先利用CASSI光学系统压缩采样,得到二维测量值,并经过反转色散过程,将测量值向后偏移,获得初始化信号;随后,在解码阶段将得到的初始化信号输入到压缩重建网络的编码器中提取特征并融合,得到特征图;接下来,将特征图信息再输入到瓶颈模块中进一步提取关注特征并融合,得到最终特征图;最后,在解码器中将最终特征图依次输入到上采样模块、transformer模块中进行解码,之后再经过conv3×3卷积层生成残差高光谱图像,最终得到重建后的高光谱图像。方法中使用多个模块进行重建可显著提高重建性能,采用局部窗口自注意与深度卷积相结合,在并行分支中窗口内和窗口之间捕获的关系被连接并发送到前馈网络以获得输出特征的结构。通道交互和空间交互是提出的双向交互,这为两个分支中更好的表示学习提供了补充线索。同时我们引入了掩码引导机制,保留了所有输入的高光谱图像信息,实现了压缩感知高光谱图像的快速、精确重建。与传统迭代重建算法相比,在重建质量上有所提高,并且在重建高光谱数据上的计算时间上有显著提高,远快于传统算法。
附图说明
图1是本发明实施方式中基于transformer和CNN并行架构的图像压缩感知重建方法的流程图。
图2是本发明实施方式中通过CASSI光学系统压缩采样,获得二维测量,经过反转色散过程,获得初始化信号的过程图。
图3是本发明的基于transformer和CNN并行架构的图像压缩感知重建网络图。
图4是本发明的transformer模块示意图。
图5是本发明实施方式中MSAB模块示意图。
图6是本发明实施方式中CNN模块示意图。
图7是本发明MSAB模块中MSA示意图。
图8是本发明MSAB模块中掩码引导机制示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
如图1所示,基于自注意力和深度卷积并行的高光谱重建方法,包括如下步骤:
S1、编码阶段:对原始高光谱图像压缩采样得到的二维测量值Y进行反转色散,将该二维测量Y值向后偏移,获得初始化信号;
S2、解码阶段:参考图3的基于transformer和CNN并行架构的图像压缩感知重建网络图,包括:
S2-1、构建基于transformer和CNN并行架构的编码器,将初始化信号输入至该编码器中提取特征并融合,得到特征图;
S2-2、将特征图输入至瓶颈网络中,进一步提取特征并融合,得到最终特征图;
S2-3、将最终的特征图输入至解码器中得到重建后的高光谱图像。
步骤S1中,参考图2,步骤S1包括如下子步骤:
S101、利用CASSI光学系统中二维编码孔径M对原始高光谱图像预设波长的HSI信号进行编码得到 />,如下式:
,
其中,表示调制后的HSIs, />表示光谱通道,⊙表示元素乘法;H代表输入的三维HSI立方体的高,W代表输入的三维HSI立方体的宽,/>代表输入的三维HSI立方体的波长数;/>;
S102、然后利用CASSI光学系统中分散器对沿y轴剪切信号得到/>,如下式:,
其中,(u, v)为定位探测器平面上的坐标系,为第n个通道的波长,/>表示锚定波,/>为第n个通道在/>上的空间移动偏移量;
S103、整合有通道,将压缩为二维测量值Y,如下式:/>,
其中,,为CASSI光学系统获取到的二维测量值;/>,为传感探测器上成像过程中的二维测量噪声;
S104、将二维测量Y值向后偏移,获得初始化信号T,如下式:
。
S2-1、在解码阶段,构建基于transformer和CNN并行架构的编码器,将初始化信号输入至该编码器中提取特征并融合,同时建模窗口内和窗口间的关系来扩大感受野,得到特征图;
基于transformer和CNN并行架构的编码器包括3个顺序连接的特征提取模块,所述特征提取模块为:transformer模块连接的下采样模块;参考图4,所述transformer模块是基于MSAB模块和CNN模块并行的架构:
,
,
其中,MIX表示在MSAB分支和CNN分支之间实现特征混合的函数,表示Layer Norm层,/>为输入到transformer模块的特征信息,/>为MSAB模块和CNN模块特征混合后的特征信息,FFN表示前馈网络,它由两个线性层组成且中间有一个GELU层,而为transformer模块的输出特征信息。
参考图5,所述MSAB模块是顺序连接的第一Layer Norm模块、MSA模块、第二LayerNorm模块、Mask Attention模块,本发明引入了掩码引导机制,保留了所有输入的高光谱图像信息,从而提高图像的重构质量。生成特征信息与CNN模块所产生特征信息进行级联操作,然后发送到前馈网络,得到特征图的输出。
参考图3,瓶颈网络阶段经历了两次transformer模块;解码器中一共分为3个Block,与编码器一一对应,每个Block的结构依次为:上采样模块-transformer模块。在瓶颈模块中,我们将步骤S2-1得到的特征图X3依次通过两个transformer模块,其内部结构与编码器中一致。即X' 3为最终精细化输出,即得到最终特征图。
参考图6,CNN模块是依次连接的三层卷积层,第一层卷积卷积核大小为1×1,激活函数为GELU,第二层卷积卷积核大小为5×5,激活函数为GELU,第三层卷积卷积核大小为1×1,激活函数为GELU。
如图7所示,MSA模块采用光谱式多头自注意机制,用于接收来自第一Layer Norm模块输出的特征图并进一步提取特征,包括如下步骤S2-A1至S2-A4:
S2-A1、输入,被重塑为令牌X,然后将X线性投影到/>,, />:
,/>,/>,其中,/>是可学习参数;
S2-A2、沿着光谱通道维度将Q、K、V分别拆分为N个头如下:
,并计算每个头的自我注意力,如下:
,
其中表示/>的转置矩阵,/>是可学习参数,用于通过重新加权/>内的矩阵乘法/>来调整自注意/>;
S2-A3、将N个头的输出在频谱上进行级联操作,以进行线性投影,再添加位置嵌入,如下:
,
其中是可学习参数,/>是生成位置嵌入的函数,它包括两层3×3的卷积层、一个GELU激活层、以及重塑操作层;
S2-A4、将得到的MSA(X)进行重塑操作,得到MSA模块的输出特征图。
参考图8,Mask Attention模块用于接收第二Layer Norm模块输出的特征图,并进行特征提取,具体包括如下子步骤:
S2-B1、给定掩码,采用色散过程移动M:
,
其中表示M的移位版本;
S2-B2、将输入至两个路径:下部路径是身份映射,以保留原始保真度信息;上部路径依次经历了两次3×3卷积层和GELU层,随后经历了1个5×5深度卷积层和1个sigmoid激活函数,以及与下部路径的内积,所述上部路径为:
,
其中,代表sigmoid激活函数,/>表示深度方向conv3×3层的映射函数,表示深度方向conv5×5层的映射函数,/>表示中间特征图;
S2-B3、进行反转色散过程并将向后移位,得到掩模注意力映射/>:
,
其中,索引频谱通道以匹配/>的维度。
步骤S2-3中,遵循U-Net的设计理念,设计了一个对称结构作为解码器。在解码器中设置3个Block,分别与编码器中的3个Block一一对应,每个Block的结构依次为:上采样模块-transformer模块,特别的是,跳过连接被用于编码器和解码器之间的特征聚合,以减轻由下采样操作引起的信息损失。将得到的最终特征图输入到上采样模块中,用来提升特征图的大小,之后再将特征图输入到transformer模块中,得到特征图,之后再经过conv3×3卷积层生成残差高光谱图像/>,最后重构的高光谱图像/>由R和T加和得到,即/>。
本发明与传统迭代重建算法对比实验结果如表1所示。
表1
从表中可以看出,与传统迭代重建算法相比,在重建质量上有所提高,并且在重建高光谱数据上的计算时间上有显著提高,远快于传统算法。
虽然本发明已以较佳实施例阐述如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (1)
1.基于自注意力和深度卷积并行的高光谱重建方法,其特征在于,包括如下步骤:
S1、编码阶段:对原始高光谱图像压缩采样得到的二维测量值Y进行反转色散,将该二维测量Y值向后偏移,获得初始化信号;步骤S1包括如下子步骤:
S101、利用CASSI光学系统中二维编码孔径M对原始高光谱图像预设波长的HSI信号进行编码得到 />,如下式:
,
其中,表示调制后的HSIs, />表示光谱通道,⊙表示元素乘法;H代表输入的三维HSI立方体的高,W代表输入的三维HSI立方体的宽,/>代表输入的三维HSI立方体的波长数;/>;
S102、然后利用CASSI光学系统中分散器对沿y轴剪切信号得到/>,如下式:,
其中,(u, v)为定位探测器平面上的坐标系,为第n个通道的波长,/>表示锚定波,为第n个通道在/>上的空间移动偏移量;
S103、整合有通道,将压缩为二维测量值Y,如下式:/>,
其中,,为CASSI光学系统获取到的二维测量值;/>,为传感探测器上成像过程中的二维测量噪声;
S104、将二维测量Y值向后偏移,获得初始化信号T,如下式:
,
S2、解码阶段:包括:
S2-1、构建基于transformer和CNN并行架构的编码器,将初始化信号输入至该编码器中提取特征并融合,得到特征图;具体为:基于transformer和CNN并行架构的编码器包括3个顺序连接的特征提取模块,所述特征提取模块为:transformer模块连接的下采样模块;
所述transformer模块是基于MSAB模块和CNN模块并行的架构,所述MSAB模块是顺序连接的第一Layer Norm模块、MSA模块、第二Layer Norm模块、Mask Attention模块,所述CNN模块是依次连接的三层卷积层;
其中,所述transformer模块是基于MSAB模块和CNN模块并行的架构,如下式:
,
,
其中,MIX表示在MSAB分支和CNN分支之间实现特征混合的函数,表示LayerNorm层,/>为输入到transformer模块的特征信息,/>为MSAB模块和CNN模块特征混合后的特征信息,FFN表示前馈网络,它由两个线性层组成且中间有一个GELU层,而/>为transformer模块的输出特征信息;
所述CNN模块是依次连接的三层卷积层具体为:第一层卷积卷积核大小为1×1,激活函数为GELU;第二层卷积卷积核大小为5×5,激活函数为GELU;第三层卷积卷积核大小为1×1,激活函数为GELU;
所述MSA模块采用光谱式多头自注意机制,用于接收来自第一Layer Norm模块输出的特征图并进一步提取特征,包括如下步骤:
S2-A1、输入,被重塑为令牌X,然后将X线性投影到/>,, />:
,/>,/> ,其中,/> 是可学习参数;
S2-A2、沿着光谱通道维度将Q、K、V分别拆分为N个头如下:
,并计算每个头的自我注意力,如下:
,
其中表示/>的转置矩阵,/>是可学习参数,用于通过重新加权/>内的矩阵乘法/>来调整自注意/>;
S2-A3、将N个头的输出在频谱上进行级联操作,以进行线性投影,再添加位置嵌入,如下:
,
其中是可学习参数,/>是生成位置嵌入的函数,它包括两层3×3的卷积层、一个GELU激活层、以及重塑操作层;
S2-A4、将得到的MSA(X)进行重塑操作,得到MSA模块的输出特征图;
所述Mask Attention模块用于接收第二Layer Norm模块输出的特征图,并进行特征提取,具体包括如下子步骤:
S2-B1、给定掩码,采用色散过程移动M:
,
其中表示M的移位版本;
S2-B2、将输入至两个路径:下部路径是身份映射,以保留原始保真度信息;上部路径依次经历了两次3×3卷积层和GELU层,随后经历了1个5×5深度卷积层和1个sigmoid激活函数,以及与下部路径的内积,所述上部路径为:
,
其中,代表sigmoid激活函数,/>表示深度方向conv3×3层的映射函数,/>表示深度方向conv5×5层的映射函数,/>表示中间特征图;
S2-B3、进行反转色散过程并将向后移位,得到掩模注意力映射/>:
,
其中,索引频谱通道以匹配/>的维度;
S2-2、将特征图输入至瓶颈网络中,进一步提取特征并融合,得到最终特征图;所述瓶颈网络是两个依次连接的transformer模块;
S2-3、将最终的特征图输入至解码器中得到重建后的高光谱图像,所述解码器包括顺序连接的3个block,且3个block与所述特征提取模块一一对应;每个block依次为:上采样模块连接transformer模块;所述上采样模块与特征提取模块中的transformer模块对应,具体为:将得到的最终特征图输入到上采样模块中,用来提升特征图的大小,之后再将特征图输入到transformer模块中,得到特征图,之后再经过conv3×3卷积层生成残差高光谱图像/>,最后重构的高光谱图像 />由R和T加和得到,即/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310926894.6A CN116665063B (zh) | 2023-07-27 | 2023-07-27 | 基于自注意力和深度卷积并行的高光谱重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310926894.6A CN116665063B (zh) | 2023-07-27 | 2023-07-27 | 基于自注意力和深度卷积并行的高光谱重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665063A CN116665063A (zh) | 2023-08-29 |
CN116665063B true CN116665063B (zh) | 2023-11-03 |
Family
ID=87715627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310926894.6A Active CN116665063B (zh) | 2023-07-27 | 2023-07-27 | 基于自注意力和深度卷积并行的高光谱重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665063B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116990243B (zh) * | 2023-09-26 | 2024-01-19 | 湖南大学 | 一种基于gap框架的轻量化注意力高光谱计算重构方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187480A (zh) * | 2022-07-06 | 2022-10-14 | 北京联合大学 | 一种基于Transformer的图像颜色校正方法 |
CN115762536A (zh) * | 2022-11-25 | 2023-03-07 | 南京信息工程大学 | 一种基于桥接Transformer的小样本优化鸟声识别方法 |
WO2023030314A1 (zh) * | 2021-09-03 | 2023-03-09 | 北京有竹居网络技术有限公司 | 文本处理方法、模型训练方法、设备及存储介质 |
CN116012344A (zh) * | 2023-01-29 | 2023-04-25 | 东北林业大学 | 一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法 |
CN116051945A (zh) * | 2023-01-13 | 2023-05-02 | 常州大学 | 一种基于CNN-Transformer并行融合方法 |
CN116152266A (zh) * | 2023-03-30 | 2023-05-23 | 华中科技大学 | 一种穿刺针超声图像的分割方法、装置和系统 |
CN116228912A (zh) * | 2023-05-06 | 2023-06-06 | 南京信息工程大学 | 基于U-Net多尺度神经网络的图像压缩感知重建方法 |
CN116309107A (zh) * | 2022-12-30 | 2023-06-23 | 合肥学院 | 基于Transformer和生成式对抗网络的水下图像增强方法 |
CN116369933A (zh) * | 2023-05-10 | 2023-07-04 | 东北大学 | 一种基于轻量卷积神经网络和Transformer融合的心律失常检测方法 |
WO2023134447A1 (zh) * | 2022-01-12 | 2023-07-20 | 华为技术有限公司 | 数据处理的方法和相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926372B (zh) * | 2020-08-22 | 2023-03-10 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
-
2023
- 2023-07-27 CN CN202310926894.6A patent/CN116665063B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023030314A1 (zh) * | 2021-09-03 | 2023-03-09 | 北京有竹居网络技术有限公司 | 文本处理方法、模型训练方法、设备及存储介质 |
WO2023134447A1 (zh) * | 2022-01-12 | 2023-07-20 | 华为技术有限公司 | 数据处理的方法和相关设备 |
CN115187480A (zh) * | 2022-07-06 | 2022-10-14 | 北京联合大学 | 一种基于Transformer的图像颜色校正方法 |
CN115762536A (zh) * | 2022-11-25 | 2023-03-07 | 南京信息工程大学 | 一种基于桥接Transformer的小样本优化鸟声识别方法 |
CN116309107A (zh) * | 2022-12-30 | 2023-06-23 | 合肥学院 | 基于Transformer和生成式对抗网络的水下图像增强方法 |
CN116051945A (zh) * | 2023-01-13 | 2023-05-02 | 常州大学 | 一种基于CNN-Transformer并行融合方法 |
CN116012344A (zh) * | 2023-01-29 | 2023-04-25 | 东北林业大学 | 一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法 |
CN116152266A (zh) * | 2023-03-30 | 2023-05-23 | 华中科技大学 | 一种穿刺针超声图像的分割方法、装置和系统 |
CN116228912A (zh) * | 2023-05-06 | 2023-06-06 | 南京信息工程大学 | 基于U-Net多尺度神经网络的图像压缩感知重建方法 |
CN116369933A (zh) * | 2023-05-10 | 2023-07-04 | 东北大学 | 一种基于轻量卷积神经网络和Transformer融合的心律失常检测方法 |
Non-Patent Citations (7)
Title |
---|
Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction;Yuanhao Cai等;《2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)》;17502-17311, 正文第3节, 4.1-4.3节, 图2, 图3 * |
MixFormer: Mixing Features acrossWindows and Dimensions;Qiang Chen等;《2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)》;5249-5259, 正文3.1节第10段, 图1, 图2 * |
MSA transformer;Roshan M Rao等;《Proceedings of the 38th International Conference on Machine Learning》;第139卷;8844-8856 * |
低功耗异构计算架构的高光谱遥感图像分类研究;刘鹏飞等;《计算机工程 》;第48卷(第12期);9-15+23 * |
基于Swin Transformer的深度有监督哈希图像检索方法;苗壮等;《 湖南大学学报(自然科学版) 》;第50卷(第08期);62-71 * |
基于多尺度融合网络的视频快照压缩感知重建;陈勋豪等;《计算机与现代化》(第12期);58-64+7 * |
深度学习在高光谱成像算法中的研究;张理清;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》(第2022(05)期);C028-167 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665063A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886871B (zh) | 基于通道注意力机制和多层特征融合的图像超分辨率方法 | |
CN116665063B (zh) | 基于自注意力和深度卷积并行的高光谱重建方法 | |
CN105554501B (zh) | 一种图像采集与压缩方法及装置 | |
CN109996073B (zh) | 一种图像压缩方法、系统、可读存储介质及计算机设备 | |
Luo et al. | Lattice network for lightweight image restoration | |
CN116228912B (zh) | 基于U-Net多尺度神经网络的图像压缩感知重建方法 | |
US9998763B2 (en) | Compression of signals, images and video for multimedia, communications and other applications | |
CN116596764B (zh) | 一种基于Transformer与卷积交互的轻量级图像超分辨率方法 | |
CN115561182A (zh) | 一种基于先验图像引导的快照式光谱成像系统重构方法 | |
CN111754592A (zh) | 一种基于特征通道信息的端到端多光谱遥感图像压缩方法 | |
CN110047038B (zh) | 一种基于层级递进网络的单图像超分辨重建方法 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN104683818A (zh) | 基于双正交不变集多小波的图像压缩方法 | |
CN117078539A (zh) | 基于CNN-Transformer的局部全局交互式图像恢复方法 | |
CN116703726A (zh) | 基于可逆神经网络的大规模图像隐写方法、装置和设备 | |
CN116980611A (zh) | 图像压缩方法、装置、设备、计算机程序产品及介质 | |
Niu | End-to-end jpeg decoding and artifacts suppression using heterogeneous residual convolutional neural network | |
CN116916034B (zh) | 基于safd的图像处理方法、装置、设备及存储介质 | |
CN112150566A (zh) | 一种基于特征融合的密集残差网络图像压缩感知重建方法 | |
Li et al. | Learned image compression via neighborhood-based attention optimization and context modeling with multi-scale guiding | |
Li et al. | Image compression algorithm research based on improved LSTM | |
CN117274064B (zh) | 一种图像超分辨率方法 | |
CN115797183B (zh) | 一种图像超分辨率重建方法 | |
CN116823690B (zh) | 基于Swin Transformer的复杂场景HDR图像重建方法 | |
CN114708281B (zh) | 基于自适应非局部特征融合网络的图像压缩感知重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |