CN113628290A

CN113628290A - 基于3d卷积自编码器的波段自适应高光谱图像压缩方法

Info

Publication number: CN113628290A
Application number: CN202110854274.7A
Authority: CN
Inventors: 种衍文; 陈林伟; 潘少明
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-09

Abstract

本发明技术方案提供了一种基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其网络模型主要分为编码器、量化器、解码器三个模块。考虑到3D卷积核光谱维尺寸不受输入特征尺寸约束的特性，构建3D卷积自编码器，调整卷积参数保证在特征提取过程中特征光谱维尺寸的不变性，从而实现任意波段数目的高光谱图像高性能压缩与重建，对于节约计算资源、促进高光谱图像广泛应用具有重要的意义。

Description

基于3D卷积自编码器的波段自适应高光谱图像压缩方法

技术领域

本发明可以应用于高光谱图像压缩领域，利用3D卷积自编码器框架实现不同波段数的高光谱图像的压缩与重建。

背景技术

相较于普通可见光图像，高光谱图像包含了丰富的光谱信息，被广泛应用于农业、遥感、医学等领域。随着光谱成像技术的发展，如何有效的解决由于图像光谱分辨率和空间分辨率显著提升所带来的数据传输和存储压力是高光谱图像应用过程中亟待解决的问题。

由于不同的光谱成像仪生成的高光谱图像具有不同的波段数，针对高光谱图像波段数差异性设计高性能波段自适应的模型实现任意波段图像的压缩与重建，对于节约计算资源、促进高光谱图像广泛应用具有重要的意义。

传统的手工设计特征提取的方法如矢量量化(参考文献：Bascones D,GonzalezC,Mozos D.Hyperspectral Image Compression Using Vector Quantization,PCA andJPEG2000[J].Remote Sensing,2018,10(6):907.)、变换编码(参考文献：Bascones D,Gonzalez C,Mozos D.Hyperspectral Image Compression Using Vector Quantization,PCA and JPEG2000[J].Remote Sensing,2018,10(6):907.)以及预测编码(参考文献：XuP,Chen B,Xue L,et al.A Prediction-Based Spatial-Spectral AdaptiveHyperspectral Compressive Sensing Algorithm[J].Sensors(Basel),2018,18(10):3289.)等无法适应新数据的变化，即每个数据集有其独特的特征，针对某种数据集设定的特征提取方法，在另一种数据集上无法取得良好的性能。传统的机器学习方法如压缩感知(参考文献：Xu P,Liu J,Xue L,et al.Adaptive Grouping Distributed CompressiveSensing Reconstruction of Plant Hyperspectral Data[J].Sensors(Basel),2017,17(6):1322.)、孔径编码(参考文献：Wang L,Zhang T,Fu Y,et al.HyperReconNet:JointCoded Aperture Optimization and Image Reconstruction for CompressiveHyperspectral Imaging[J].IEEE Transactions on Image Processing,2018,28(5):2257-2270.)等需要针对不同波段数的高光谱图像学习不同的感知矩阵，即对于不同波段数的图像需要训练不同的模型对其进行压缩和重建；基于深度学习2D卷积的方法(参考文献：Valsesia D,Magli E.High-throughput Onboard Hyperspectral Image Compressionwith Ground-based CNN Reconstruction[J].IEEE Transactions on Geoscience andRemote Sensing,2019,57(12):9544-9553.)在RGB图像压缩领域性能优异，但2D卷积一旦训练完成光谱维尺寸即固定，只能接受特定波段数图像的输入。如附图1所示，假设2D卷积核尺寸为(H,W)＝3×3，一旦输入33个波段的图像进行训练，卷积核大小就变为33×3×3，只能接受33个波段的输入图像进行测试，若此时输入100个波段的图像进行测试，该2D卷积就会因为输入图像光谱维度与卷积核光谱维度不对应而无法进行处理。2D卷积中特征的尺寸维度为(B,C,H,W)，其中B表示Batchsize，C表示光谱维波段数，H表示空间维像素的行数，W表示空间维像素的列数，即2D卷积训练完成，光谱维(C)固定不变。

上述高光谱图像压缩方法无法解决高性能波段自适应压缩的问题。

发明内容

针对不同传感器生成的高光谱图像波段数的差异性，以及目前压缩方法在解决波段自适应压缩问题上存在的不足，另外，随着深度学习成为图像处理领域研究的主流，构建性能优异的深度学习模型来实现波段自适应的高光谱图像压缩，可为减少模型训练的计算成本、提升图像压缩的性能、促进高光谱图像在各领域的广泛应用提供有效帮助。作为深度学习中重要的方法，3D卷积核光谱维尺寸不受输入特征尺寸约束的特性，使其具有解决波段自适应压缩问题的潜力。如图1所示，假设3D卷积核尺寸为(C,H,W)＝3×3×3，若输入特征数量为1，则卷积核大小为1×3×3×3，若输入特征数量为10，则卷积核大小为10×3×3×3，即卷积核的数量与输入特征的数量一致。3D卷积中输入输出的特征尺寸为(B,D,C,H,W)，其中B表示Batchsize，D表示3D卷积核的个数，C表示光谱维尺寸，H表示空间维像素的行数，W表示空间维像素的列数。输入图像的波段数并不影响3D卷积核的光谱维(C)尺寸，只影响3D卷积核的个数(D)。所以，3D卷积核可以对任意波段的图像进行特征提取，具有实现波段自适应压缩的潜力。

因此，考虑到3D卷积核光谱维尺寸不受输入特征尺寸约束的特性，本发明提出一种波段自适应3D卷积自编码器(Band adaptive three dimension convolutional auto-encoder,BA3D-CAE)高光谱图像压缩方法。基于Pytorch深度学习框架，在3D卷积的光谱维与空间维设定不同的卷积核尺寸、步长、填充等参数，保证特征提取过程中的特征光谱维尺寸不变性，使得在良好的空间和光谱重建效果的情况下，实现高光谱图像波段自适应压缩。

本发明所采用的技术方案是：基于3D卷积自编码器的波段自适应高光谱图像压缩方法，包括如下步骤：

整体网络模型训练阶段，将训练图像输入到构建的整体网络模型中进行训练，直到收敛，训练过程中采用先正向传播后反向传播的方式，具体过程包括：

步骤1，图像张量经过编码器压缩处理后得到隐藏表征张量；

所述编码器对输入图像进行特征提取实现初步压缩，编码器包含归一化、3D卷积模块、3D残差块模块，其中，3D卷积模块包括3D卷积层、3D批归一化层以及激活函数层；3D残差块模块包括3D卷积层、3D批归一化层以及激活函数层；

步骤2，将隐藏表征张量输入量化器进行量化处理得到二进制码流实现进一步压缩；

步骤3，最后将二进制码流输入到解码器得到重建图像，通过训练达到网络收敛，实现图像的率失真优化；

所述解码器中包括反归一化、3D卷积上采样模块以及3D残差模块，其中，3D卷积上采样模块包括上采样层、3D卷积层、3D批归一化层以及激活函数层，其中，反归一化的作用是改变输出图像特征值的范围使其与原始图像特征值范围相同；经过一个上采样层，图像各个维度的尺寸变为原来的2倍；解码器中的3D残差模块与编码器中完全相同；

整体网络模型测试阶段，将图像输入到上述训练好的整体网络模型中，得到压缩后的图像。

进一步的，步骤2中量化处理的具体过程如下；

获得编码器输出的隐藏表征张量x后，通过y＝(x+1)/2将特征值范围转化为(0,1)，再将y输入量化器进行量化操作，将每个像素由浮点数变为整数，即{0,1}，每个像素占用的比特数由16位变为1位，减少了像素占用的比特数量，进一步对特征进行压缩，其中量化器采用随机舍入操作，如公式(1-1)所示：

Q(y)≈floor(y)+z,z∈{0,1},P(z＝1)＝y–floor(y) (1-1)

其中，floor()表示向下取整函数，Q()表示对括号中目标值进行量化操作后的结果，P表示概率，z是随机参数，其取值的概率与y相关；

在反向传播对整体网络模型参数进行更新时，Q(y)不可微，但其期望可微，如公式(1-2)所示：

E[Q(y)]＝E[floor(y)]+E[z]＝E[floor(y)]+y–floor(y)＝y (1-2)

因此，Q(y)的导数可以用其期望的导数代替，如公式(1-3)所示：

量化器引入的导数可以通过编码器和解码器进行反向传播，不影响3D卷积自编码器网络端到端优化。

进一步的，所述编码器包括依次连接的归一化、3D卷积模块1、3D卷积模块2、3个3D残差模块、3D卷积模块3，其中3D卷积模块1-2分别包括3D卷积层、3D批归一化层和LeakyRuLU，3D卷积模块3包括3D卷积核、3D批归一化层和Tanh；3D卷积模块1-3中3D卷积核的个数分别为16、32、F，通过设定不同的F值，可以控制压缩表示输出的大小；卷积核的大小均为(3,5,5)，步长为(1,2,2)，填充为(1,2,2)；3D残差模块包括2个3D卷积层，2个3D批归一化层和2个LeakyRuLU，其中第二个3D批归一化层的输出和3D残差模块的输入相加后再通过第二个LeakyRuLU得到3D残差模块的输出结果。

进一步的，所述解码器包括依次连接的3D上采样模块1、3个3D残差模块、3D上采样模块2、3D上采样模块3、反归一化；其中3D上采样模块1-3分别包括上采样层、卷积核的大小为(5,3,3)，步长为(2,1,1)，填充为(2,1,1)的3D卷积层、3D批归一化层和LeakyRuLU，解码器中的3D残差模块与编码器中的3D残差模块完全一致；反归一化的作用是改变输出图像特征值的范围使其与原始图像特征值范围相同。

进一步的，整体网络模型中编码器和解码器的具体结构如表1所示；

表1 整体网络模型中每层网络操作及对应的输入特征、输出特征尺寸变化

其中，F表示卷积核的数量，在卷积核中第一个数字表示卷积核的数量，后面三个数字表示3D卷积核的尺寸；在输入特征尺寸和输出特征尺寸中第一个数字表示Batchsize，第二个数字表示深度，第三个数字表示特征的光谱像素分辨率，最后两个数字表示特征的空间像素分辨率，整体网络模型中设置每一层输出特征的光谱维尺寸不变，只改变空间维尺寸来避免输入图像与输出图像波段数不一致的问题。

进一步的，编码器最后一层3D卷积模块3中使用Tanh函数，以确保特征值位于(-1,1)范围内。

进一步的，整体网络模型训练使用的损失函数如公式(1-4)所示：

Loss＝K1×SAM+(K2–PSNR)+K1×(1–SSIM) (1-4)

其中，K1和K2均为常数，SAM为光谱角映射，SSIM为结构相似度，PSNR为峰值信噪比，SAM为度量图像光谱相似度的指标，SSIM与PSNR为度量图像空间相似度的指标；

进一步的，K1＝1000，K2＝45。

综上所述，针对不同传感器生成的高光谱图像波段数的差异性，设计基于3D卷积自编码器的高光谱图像压缩方案对任意波段的高光谱图像进行压缩与重建。作为深度学习中重要的方法，3D卷积核光谱维尺寸不受输入特征尺寸约束的特性，使其具有解决波段自适应压缩问题的潜力。在光谱维与空间维设定不同的卷积核尺寸、步长、填充等参数，保证特征提取过程中特征光谱维尺寸的不变性，使得在良好的空间和光谱重建效果的情况下，实现高光谱图像波段自适应压缩。

附图说明

图1是本发明实施例中2D-CNN和3D-CNN在可接受的输入图像中光谱维数的区别。

图2是本发明实施例中的BA3D-CAE网络框架图及网络中各模块细节信息。

图3是本发明实施例中特征光谱维尺寸变化。

图4是本发明实施例中BA3D-CAE网络对不同波段数的高光谱图像的压缩重建效果图。

具体实施方式

下面结合实例和附图，讲解具体的压缩流程。基于3D卷积自编码器的高光谱图像波段自适应压缩方法的具体压缩步骤如下：

图像张量经过编码器网络压缩处理后得到隐藏表征张量，再将隐藏表征张量输入量化器进行量化处理得到二进制码流实现进一步压缩，最后将二进制码流输入到解码器得到重建图像，通过训练达到网络收敛，实现图像的率失真优化。

编码器对输入图像进行特征提取实现初步压缩。如图2所示，编码器包括依次连接的归一化、3D卷积模块1、3D卷积模块2、3个3D残差模块、3D卷积模块3，其中3D卷积模块1-2分别包括3D卷积层、3D批归一化层和LeakyRuLU，3D卷积模块3包括3D卷积核、3D批归一化层和Tanh；3D卷积模块1-3中3D卷积核的个数分别为16、32、F，通过设定不同的F值，可以控制压缩表示输出的大小；卷积核的大小均为(3,5,5)，步长为(1,2,2)，填充为(1,2,2)。3D残差模块包括2个3D卷积层，2个3D批归一化层和2个LeakyRuLU，其中第二个3D批归一化层的输出和3D残差模块的输入相加后再通过第二个LeakyRuLU得到3D残差模块的输出结果。

获得编码器输出的隐藏表征张量x后，通过y＝(x+1)/2将特征值范围转化为(0,1)，再将y输入量化器进行量化操作，将每个像素由浮点数变为整数，即{0,1}，减少像素占用的比特数量，进一步对特征进行压缩。本文量化器采用随机舍入操作，如公式(1-1)所示：

Q(y)≈floor(y)+z,z∈{0,1},P(z＝1)＝y–floor(y) (1-1)

其中，floor()表示向下取整函数，Q()表示对括号中目标值进行量化操作后的结果，P表示概率，z是随机参数，其取值的概率与y相关。例如，y中有一个像素值n＝2.3，floor(n)＝2，P(z＝1)＝0.3，P(z＝0)＝0.7，因此，Q(n)≈2和Q(n)≈3的概率分别为0.7和0.3。

在反向传播对模型参数进行更新时，Q(y)不可微，但其期望可微，如公式(1-2)所示：

E[Q(y)]＝E[floor(y)]+E[z]＝E[floor(y)]+y–floor(y)＝y (1-2)

因此，Q(y)的导数可以用其期望的导数代替，如公式(1-3)所示:

解码器对量化器输出的压缩表示进行解码运算，尽可能的恢复出原始图像。如图2所示，解码器包括依次连接的3D上采样模块1、3个3D残差模块、3D上采样模块2、3D上采样模块3、反归一化。其中3D上采样模块1-3分别包括上采样层、卷积核的大小为(5,3,3)，步长为(2,1,1)，填充为(2,1,1)的3D卷积层、3D批归一化层和LeakyRuLU。解码器中的3D残差模块与编码器中的3D残差模块完全一致。反归一化的作用是改变输出图像特征值的范围使其与原始图像特征值范围相同。

通常在自编码器中通过编码器卷积减小特征尺寸，再通过解码器上采样增大特征尺寸，但在处理任意波段图像时存在以下问题，如图3所示，(a)光谱维尺寸变化为：200-100-200，即能够正常重建出原始图像的波段数，(b)光谱维尺寸变化为：99-50-100，其中输入图像波段数为99、输出图像波段数为100，即无法保持输入图像与输出图像波段数一致；因此，我们在设定自编码器网络时保证每一层输出特征的光谱维尺寸不变，只改变空间维尺寸来避免输入图像与输出图像波段数不一致的问题，如(c)光谱维尺寸变化为：200-200-200、(d)光谱维尺寸变化为：99-99-99所示。尺寸为3×3×3或5×5×5这类规则的3D卷积核无法在同样的步长、填充情况下实现减小输入特征空间维尺寸时保持光谱维尺寸不变，因此在设定3D卷积核参数时，将光谱维与空间维分开设置，始终保持特征光谱维尺寸不变，只对空间维进行变化。需要注意的是，虽然光谱维尺寸不变，但光谱维依然通过卷积核进行特征提取，因此参与了压缩过程。具体的每层网络层参数设定以及对应的输入特征尺寸、输出特征尺寸表1所示，其中光谱维尺寸始终保持不变，空间维尺寸在编码器中不断减小，在解码器中不断增大。

表1 BA3D-CAE网络框架中每层网络操作及对应的输入特征、输出特征尺寸变化

其中，在卷积核中第一个数字表示卷积核的数量，后面三个数字表示3D卷积核的尺寸；在输入特征尺寸和输出特征尺寸中第一个数字表示Batchsize，第二个数字表示深度，第三个数字表示特征的光谱像素分辨率，最后两个数字表示特征的空间像素分辨率，整体网络模型中设置每一层输出特征的光谱维尺寸不变，只改变空间维尺寸来避免输入图像与输出图像波段数不一致的问题。

所述压缩方法采用Pytorch深度学习框架训练，模型训练使用的损失函数如公式(1-4)所示：

Loss＝1000×SAM+(45–PSNR)+1000×(1–SSIM)(1-4)

其中，SAM为光谱角映射，SSIM为结构相似度，PSNR为峰值信噪比，SAM为度量图像光谱相似度的指标，SSIM与PSNR为度量图像空间相似度的指标。考虑到在较好的实验结果中，PSNR值为30～40，SSIM值为95％～100％，SAM值通常为0.03～0.07，因此通过45–PSNR，1000×(1–SSIM)以及1000×SAM可使得损失函数中三个指标范围分别为5～15，10～50，30～70，即三者权重相近，达到各评价指标的平衡。

下面以一个具体实例说明本发明的技术方案：

1.数据预处理和网络参数设定：

下载HSI 2015数据集(参考文献：Foster D H,Amano K,Nascimento S M C,etal.Spatial distributions of local illumination color in natural scenes[J].Vision Research,2006,120:39-44.)，该数据集包括30幅空间像素分辨率为1344×1024像素，光谱像素分辨率为33像素的高光谱图像。

将30副图像分为两个子集，其中27幅图像(90％)作为训练集，3幅图像(10％)作为测试集。将所有图像裁剪为64×64×33像素的小图像，其中64×64为空间像素分辨率，33为光谱像素分辨率，对训练集中小图像数目取整数，即包含6000个小图像。

把裁剪好的图像块转换为以Batchsize为40，深度为1的(40,1,33,64,64)规格的张量，输入网络模型进行训练，全部数据迭代300次，训练使用的损失函数如下：

Loss＝1000×SAM+(45–PSNR)+1000×(1–SSIM)

其中SAM为光谱角映射，PSNR为峰值信噪比，SSIM为结构相似度。SAM为度量图像光谱相似度的指标，SSIM与PSNR为度量图像空间相似度的指标。2.编码：

如图2所示，原始的尺寸为(40,1,33,64,64)的图像张量首先经过归一化处理，再通过3D卷积模块以及3D残差模块进行特征提取，得到(40,F,33,8,8)的隐藏表征张量，与输入原始的(40,1,33,64,64)的图像张量相比，实现F/64倍率的压缩。具体的每层网络层参数设定以及对应的输入特征尺寸、输出特征尺寸如表1所示，其中光谱维尺寸始终保持不变，空间维尺寸在编码器中不断减小。具体的特征尺寸变化过程为：(40,1,33,64,64)—>(40,24,33,32,32)—>(40,48,33,16,16)—>(40,48,33,16,16)—>(40,F,33,8,8)。

3.量化：

首先将编码器输出的隐藏表征张量x通过y＝(x+1)/2将特征值范围转化为(0,1)，再将y输入量化器将每个像素由浮点数变为整数，即{0,1}，每个像素占用的比特数由16位变为1位，进一步对特征进行压缩。本文量化器采用随机舍入操作，如公式(1-5)所示：

Q(y)≈floor(y)+z,z∈{0,1},P(z＝1)＝y–floor(y)(1-5)

4.解码：

解码器对量化器输出的压缩表示进行解码运算，尽可能的恢复出原始图像。解码器中包括反归一化、3D卷积上采样模块以及3D残差模块。尺寸为(40,F,33,8,8)的压缩表示进入解码器网络，在上采样过程中将特征尺寸恢复至(40,1,33,64,64)，实现图像的重建。如表1所示，具体的特征尺寸变化过程为：(40,F,33,8,8)—>(40,48,33,16,16)—>(40,48,33,16,16)—>(40,24,33,32,32)—>(40,1,33,64,64)。

对本发明网络模型采用33个波段的高光谱图像训练后，分别利用33个波段、25个波段、22个波段和11个波段的高光谱图像测试网络性能。表2展示了不同波段数图像的重建性能，可以看出，SAM结果为0.030～0.033，PSNR结果为40.3～41.5，SSIM结果为0.986～0.989，对于不同波段的高光谱图像，BA3D-CAE网络都能在高性能下压缩和重建，且精度相近。图4展示了不同波段数的高光谱重建图像中第10波段的可视化效果图，图像大小为448×448像素，可以看出对于任意波段的图像，BA3D-CAE在空间上都能较好的重建出原始图像，获得良好的重建效果图。

表2 BA3D-CAE对不同波段数图像的重建性能

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于，包括如下步骤：

步骤1，图像张量经过编码器压缩处理后得到隐藏表征张量；

2.如权利要求1所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：步骤2中量化处理的具体过程如下；

Q(y)≈floor(y)+z,z∈{0,1},P(z＝1)＝y–floor(y) (1-1)

E[Q(y)]＝E[floor(y)]+E[z]＝E[floor(y)]+y–floor(y)＝y (1-2)

3.如权利要求1所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：所述编码器包括依次连接的归一化、3D卷积模块1、3D卷积模块2、3个3D残差模块、3D卷积模块3，其中3D卷积模块1-2分别包括3D卷积层、3D批归一化层和LeakyRuLU，3D卷积模块3包括3D卷积核、3D批归一化层和Tanh；3D卷积模块1-3中3D卷积核的个数分别为16、32、F，通过设定不同的F值，可以控制压缩表示输出的大小；卷积核的大小均为(3,5,5)，步长为(1,2,2)，填充为(1,2,2)；3D残差模块包括2个3D卷积层，2个3D批归一化层和2个LeakyRuLU，其中第二个3D批归一化层的输出和3D残差模块的输入相加后再通过第二个LeakyRuLU得到3D残差模块的输出结果。

4.如权利要求3所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：所述解码器包括依次连接的3D上采样模块1、3个3D残差模块、3D上采样模块2、3D上采样模块3、反归一化；其中3D上采样模块1-3分别包括上采样层、卷积核的大小为(5,3,3)，步长为(2,1,1)，填充为(2,1,1)的3D卷积层、3D批归一化层和LeakyRuLU，解码器中的3D残差模块与编码器中的3D残差模块完全一致；反归一化的作用是改变输出图像特征值的范围使其与原始图像特征值范围相同。

5.如权利要求1所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：整体网络模型中编码器和解码器的具体结构如表1所示；

表1整体网络模型中每层网络操作及对应的输入特征、输出特征尺寸变化

6.如权利要求3所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：编码器最后一层3D卷积模块3中使用Tanh函数，以确保特征值位于(-1,1)范围内。

7.如权利要求1所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：整体网络模型训练使用的损失函数如公式(1-4)所示：

Loss＝K1×SAM+(K2–PSNR)+K1×(1–SSIM) (1-4)

其中，K1和K2均为常数，SAM为光谱角映射，SSIM为结构相似度，PSNR为峰值信噪比，SAM为度量图像光谱相似度的指标，SSIM与PSNR为度量图像空间相似度的指标。

8.如权利要求7所述的基于3D卷积自编码器的波段自适应高光谱图像压缩方法，其特征在于：K1＝1000，K2＝45。