CN117853340B

CN117853340B - 基于单向卷积网络和降质建模的遥感视频超分辨率重建方法

Info

Publication number: CN117853340B
Application number: CN202410257166.5A
Authority: CN
Inventors: 张浩鹏; 魏小源; 姜志国; 赵丹培; 谢凤英
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-06-04
Anticipated expiration: 2044-03-07
Also published as: CN117853340A

Abstract

本发明公开了基于单向卷积网络和降质建模的遥感视频超分辨率重建方法，采用低质量遥感视频数据集训练向量量化GAN模型，建立降质先验模型；将高分视频通过双三次下采样得到低分视频，利用预训练好的向量量化GAN模型生成融合降质先验的伪低分视频，训练单向循环超分重建网络；将待处理视频输入预训练好的单向超分重建网络，获得对应的超分结果。该方法通过引入向量量化GAN模型，实现对降质先验的准确建模，提高超分模型的泛化能力；并采用单向循环网络结构，避免了对齐过程中的计算资源大量消耗，提高了超分辨率重建效果。

Description

基于单向卷积网络和降质建模的遥感视频超分辨率重建方法

技术领域

本发明涉及模式识别与机器学习领域，特别涉及遥感图像超分辨率重建，更具体的说是涉及基于单向卷积网络和降质建模的遥感视频超分辨率重建方法。

背景技术

遥感图像是通过各种传感器获得的包含地物电磁波信息的图片，具有种类多，数据量大，涵盖的时间和空间范围广的特点。遥感视频是指视频卫星获得的遥感数据，特点是将某一时间段内获取的遥感数据在时间方向上排列，具有时间上的连续性。空间分辨率是描述遥感视频的一个重要指标，指单帧遥感图像中能区分的最小地面单元，即单帧遥感图像的一个像素的长度对应实际地面上的一段距离，该距离决定了遥感视频能包含的最细微的空间信息。提升空间分辨率是遥感领域的重要课题，除了在硬件层面直接提高传感器本身的性能外，还可在软件层面设计算法实现遥感视频空间分辨率的提升，这类技术被称为超分辨率重建技术。

图像超分辨率重建技术（以下简称超分重建）可以根据不同任务需求，将低分辨率图像（以下简称低分图像）按照一定比例因子恢复到高分辨率图像（以下简称高分图像），如果是在遥感图像空间尺度进行超分则可以提升其空间分辨率。近年来随着图像处理技术的发展，研究者发现利用视频的时空信息可以更好地恢复高分图像的信息，因此学界先后提出在视频上进行的超分重建方法。视频超分是在图像超分的基础上发展而来的。最简单的视频超分方法是逐帧进行图像超分，最后再将超分的结果堆叠起来，构成超分视频。后来人们发现用从视频中采集的连续序列帧作为输入，结合帧间信息重建比逐帧图像超分更好。目前先进的视频超分主要基于深度学习技术，利用循环网络提取序列帧图像的特征然后进行上采样，得到视频超分结果。但是在遥感领域缺少这些方法的应用，因此有必要结合遥感数据特点开发具备实用性的遥感视频超分方法。

由于遥感数据不具有高分辨率客观真值，而且受数据获取和传输影响具备复杂且不可知的降质过程，因此真实遥感超分应用实际上属于盲超分问题。盲超分问题指高分图像到低分图像的降质过程具备多样性和未知性，因此需要在模型训练阶段提供多种降质影响下的低分数据，从而使模型获得更好的泛化能力。根据盲超分思想，现有的降质过程建模主要包括两种方式，显式建模和隐式建模。显式建模将降质过程建模为模糊、噪声和压缩伪影等及其叠加，隐式建模则通过网络学习模糊核等降质因子。由于不依赖人工设计的降质先验，隐式建模通常具有更强大的降质表征能力和泛化能力，但是网络设计相应地更加困难。利用盲超分思想，在遥感视频超分重建过程中引入多种降质信息，可以有效提升超分模型的泛化能力，更符合实际遥感应用的需求。

目前遥感视频超分重建方法可分为两类：对齐和非对齐的方法。对齐就是将序列帧图像中位置发生偏移的目标特征移到同一位置，方便卷积网络充分利用不同时间状态下的特征。显式的对齐方法包括估计光流并进行运动补偿等，隐式对齐方法是为了减少运动信息估计不准确带来的误差，主要方法有可变性卷积。通常而言，对齐的超分方法会消耗更多的计算资源，而且不准确的光流估计会导致结果出现大量的伪影。非对齐的方法自动学习序列帧图像的特征和运动信息，这其中空间非对齐方法将输入帧直接进行二维卷积，然后直接融合多帧特征。通常这些方法不考虑遥感数据的降质问题，而是仅通过显式下采样获得用于网络训练的低分-高分图像对，这可能导致超分重建结果中出现不理想的伪影等现象，从而降低模型的泛化能力，限制超分算法在真实场景下的应用。

实际应用中遥感数据并没有高分对作为客观真值，在数据获取过程中也可能受复杂降质的影响，这种问题在超分重建领域称为盲超分。现有的盲超分技术通过显式或隐式方法建模降质先验，然后将先验和原始低分数据融合以获得包含多种降质信息的训练数据，从而增强超分模型在真实世界中的泛化能力。目前盲超分思想在遥感视频超分中的应用探索尚不充分，已有的显式建模方法依赖于人工设计的降质过程，不能有效表示遥感数据复杂的降质先验。而隐式建模方法受限于训练稳定性，只能将降质建模过程融合到超分网络中，在特征层面上添加降质信息，这也限制了降质模型的表征能力，不能充分发挥盲超分思想的优势。此外，先进的盲超分方法大多针对于真实世界场景下的图像数据，没有充分考虑遥感数据具备的广域、远距离和多变场景的特点，无法直接用于遥感视频超分任务。

发明内容

有鉴于此，本发明提出了基于单向卷积网络和降质建模的遥感视频超分辨率重建方法，可有效解决现有技术中遥感视频超分辨率重建存在的降质先验建模问题、对齐方法问题及盲超分问题。

为了实现上述目的，本发明采用如下技术方案：

本发明实施例提供基于单向卷积网络和降质建模的遥感视频超分辨率重建方法，包括以下步骤：

S1、采用低质量遥感视频数据集训练向量量化GAN模型，建立降质先验模型；所述向量量化GAN模型用于建立降质码本并实现降质建模；

S2、将高分视频通过双三次下采样得到低分视频，利用预训练好的所述向量量化GAN模型生成融合降质先验的伪低分视频，采用所述伪低分视频训练单向循环超分重建网络；

S3、将待处理视频输入预训练好的单向循环超分重建网络，获得对应的超分结果。

进一步地，所述步骤S1中的向量量化GAN模型，包括：编码器、向量量化码本和解码器，通过多尺度特征提取，生成包含多种降质的低分辨率视频。

进一步地，所述步骤S1中的向量量化GAN模型的损失函数由向量量化损失、感知损失/>和对抗性损失/>的组合组成；其中，所述向量量化损失/>中添加了相应的分支项，损失函数如下式表示：

其中，x、表示向量量化GAN模型的低分视频输入和降质低分视频输出，/>、分别表示向量量化码本的输入和输出，f∈{0.5,0.25,0.125}，表示因子f对应的网络分支；训练时的输入为低质量遥感视频数据，网络在训练过程中建立并更新向量量化码本，从而建模低质量数据中包含的降质先验。

进一步地，所述步骤S2中的单向循环超分重建网络，通过结构剪枝和滑动窗口机制，利用连续图像帧序列进行超分辨率重建。

进一步地，所述步骤S2中，训练单向循环超分重建网络分两步进行：

第一步，在数据集上独立训练单向循环网络，此时高分-低分视频对通过双三次下采样显式获得，损失函数为损失，学习率为/>；

第二步，单向循环超分重建网络和向量量化GAN模型联合训练，此时高分-低分视频对通过双三次插值和降质退化模型生成，损失函数为和/>的组合，学习率为/>，该步训练时参数更新仅针对单项循环网络进行。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了基于单向卷积网络和降质建模的遥感视频超分辨率重建方法：通过引入向量量化GAN模型，实现了对降质先验的准确建模，提高了超分模型的泛化能力。并采用单向循环网络结构，避免了对齐方法中的计算资源大量消耗，提高了超分辨率重建效果。另外，引入盲超分思想，通过向量量化GAN联合训练，充分考虑遥感数据的多样性和未知性降质，提高了模型在真实场景下的应用性，有助于提高遥感视频超分辨率重建的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于单向卷积网络和降质建模的遥感视频超分辨率重建方法流程图；

图2为本发明提供的基于单向卷积网络和降质建模的遥感视频超分辨率重建方法原理图；

图3为本发明提供的向量量化GAN模型结构图；

图4为本发明提供的单向循环超分重建网络结构图；

图5为本发明提供的向量量化GAN模型和单向循环超分重建网络整体框架图。

图6为SatSOT超分视频的某一帧示意图。

图7为SatSTB超分结果用于目标检测的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本发明实施例公开了基于单向卷积网络和降质建模的遥感视频超分辨率重建方法，包括以下步骤：

S1、用低质量遥感视频数据集训练向量量化GAN模型，建立降质先验模型；所述向量量化GAN模型用于建立降质码本并实现降质建模；该步骤建立了一个降质先验模型，用于对低分辨率视频进行降质建模和生成降质码本，为后续的超分辨率重建提供基础。

S2、将高分视频通过双三次下采样得到低分视频，利用预训练好的所述向量量化GAN模型生成融合降质先验的伪低分视频，采用所述伪低分视频训练单向循环超分重建网络；通过融合降质先验的伪低分辨率视频训练一个超分辨率重建网络，提高了网络的重建性能和对降质数据的鲁棒性。

该方法通过引入向量量化GAN模型，实现了对降质先验的准确建模，提高了超分模型的泛化能力。并采用单向循环网络结构，避免了对齐方法中的计算资源大量消耗，提高了超分辨率重建效果。另外，引入盲超分思想，通过向量量化GAN联合训练，充分考虑遥感数据的多样性和未知性降质，提高了模型在真实场景下的应用性，有助于提高遥感视频超分辨率重建的精度。

整体来说，本发明的具体实现流程如图2所示，各部分具体实施细节如下：

1.训练向量量化GAN模型，建立降质先验模型

本发明包括两个相互独立的深度神经网络：向量量化GAN和单向循环网络。其中向量量化GAN用于建立降质码本并实现降质建模。训练阶段首先在低质量遥感视频数据集上训练向量量化GAN，网络结构如图3所示。

a.向量量化GAN模型

向量量化GAN是由编码器、向量量化码本和解码器组成的网络。本算法利用向量量化GAN对遥感视频中存在的多种退化进行建模。受金字塔网络中不同层次的特征图主要包含不同频率信息的思想启发，本算法为向量量化GAN添加两个不同尺度的分支。如图3所示，这些分支共享一个浅层特征提取模块（即图3中最右边开始的纯净LRV之后连接的第一个Conv卷积块）。随着编码特征图尺度的减小，逐渐引出三个分支，对应于特征图尺度减小的因子{0.5,0.25,0.125}。随后，使用预训练好的码本来量化降解先验并将其添加到特征图中。由于多分支结构保留了不同层次的信息，增强的VQGAN（即向量量化GAN）可以生成包含多种降质的低分视频，即图3中的伪低分视频。

在本算法中除了共享特征提取层外，0.5尺度分支包含2组卷积层，0.25和0.125尺度分支各包含1组独立堆叠的卷积层。这些卷积层由二维卷积和ReLU激活函数组成，在前向传播时不改变特征图的空间形状。

b.损失函数

向量量化GAN在低质量卫星视频数据集上训练，利用卫星数据的退化先验建立码本。本算法使用具有1024个条目和512个通道的码本，采用学习率为的Adam优化器。损失函数由向量量化损失/>、感知损失/>和对抗性损失/>的组合组成，并在向量量化损失中添加了相应的分支项，损失函数如下式所示：

其中，x和表示向量量化GAN的输入和输出，/>和/>分别表示向量量化码本的输入和输出，f∈{0.5,0.25,0.125}，表示因子f对应的网络分支。训练时的输入为低质量遥感视频数据，网络在训练过程中建立并更新向量量化码本，从而建模低质量数据中包含的降质先验。

2.联合降质先验模型训练单向循环超分重建网络

利用第一阶段训练好的向量量化GAN，可以生成融合了降质先验的伪低分视频，随后该低分视频用于单向循环网络的训练。第二阶段训练单向循环网络的过程在高质量遥感视频数据集上进行，网络结构如图4所示。

循环网络结构已被广泛应用于视频超分中。本算法采用单向循环网络，移除了反向序列输入，同时对网络进行结构剪枝。具体而言，本算法减少了循环块中冗余的深层残差连接。此外，本算法删除了的反馈结构，以减少网络计算资源消耗。该网络通过滑动窗口获取连续的图像帧序列。例如，当窗口大小为3时，网络接受/>的序列输入，其中/>表示当前时间t对应的图像帧。本算法将滑动窗口大小设置为5，即一次性输入五帧连续图像。在循环模块内，多尺度特征融合结构可以充分利用网络的表示能力。如图4所示，本算法采用对应于比例因子分别为{1,0.5,0.25}的三分支结构，每个因子对应的分支中分别包含{4,2,1}个残差块，其中残差块的结构遵循本领域通用的设置。

向量量化GAN训练完成后，在高质量的卫星视频数据集上联合向量量化GAN训练单向循环网络。由于单向循环网络和向量量化GAN的联合训练需要消耗较大，因此单向循环网络的训练分两步进行。第一步，在数据集上独立训练单向循环网络，此时高分-低分视频对通过双三次下采样显式获得，损失函数为损失，学习率为/>。第二步，单向循环网络和向量量化GAN联合训练，此时高分-低分视频对通过双三次插值和降质退化模型生成，损失函数为/>和/>的组合，学习率为/>，该步训练时参数更新仅针对单项循环网络进行。

3.单向循环网络推理

本算法网络的整体框架如图5所示。

本算法的训练和推理过程不同。在训练阶段，高分视频通过显式下采样得到纯净的低分视频，然后通过预训练好的向量量化GAN添加降质先验并生成伪降质低分视频。随后，伪低分视频输入单向循环网络进行超分重建。最后超分结果和高分视频计算损失并更新单向循环网络权重。在推理阶段，向量量化GAN不起作用，待处理视频直接输入单向循环网络并获得一定比例因子下的超分结果。

本发明设计了单向循环网络和降质建模相结合的遥感视频超分重建方法，算法包括相互独立的单向循环网络和向量量化GAN。实验在SatSOT和SatMTB两个遥感视频数据集上进行。

其中，SatSOT数据集是一个用于物体跟踪的卫星场景数据集。它由包含地面真实场景的高分辨率遥感卫星图像组成，包含105个遥感视频序列，覆盖火车、汽车、飞机、轮船等场景，共计27664帧，空间分辨率较低。

SatMTB数据集是一个多任务卫星图像数据集。它包含了来自不同传感器和分辨率的卫星图像，以及与这些图像相关的多个任务标注，如目标检测、语义分割、场景分类等；其包含249个以飞机、轮船、车辆和火车为主题的遥感视频，帧数超过50,000帧，空间分辨率更高。训练时使用两个NVIDIA 4090ti GPU。在第一阶段，向量量化GAN在SatSOT上训练150轮次。随后，单向循环网络在SatMTB上分别独立地和联合地训练300,000代。在测试过程中，由于没有客观真值视频，因此采用广泛用于超分辨率质量评估的无参考图像质量评估指标NIQE。

实验结果如图6-7所示，图6为本算法在SatSOT测试集上的4倍超分结果，NIQE为3.8888。图7为本算法在SatSTB测试集上的的超分结果和目标检测算法结合的实验结果，平均检测精度可达到99.7%。该技术方案的实际应用效果表现出对多种遥感场景的适用性，包括车辆、船只、飞机等，具备更广泛的实际应用价值。

本发明的技术方案通过创新性的结合向量量化GAN和单向循环网络，有效解决了遥感视频超分辨率重建领域中的关键问题，取得了显著的技术效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于单向卷积网络和降质建模的遥感视频超分辨率重建方法，其特征在于，包括以下步骤：

S3、将待处理视频输入预训练好的单向循环超分重建网络，获得对应的超分结果；

其中，所述步骤S1中的向量量化GAN模型，包括：编码器、向量量化码本和解码器，通过多尺度特征提取，生成包含多种降质的低分辨率视频；所述步骤S1中的向量量化GAN模型的损失函数由向量量化损失L_vq、感知损失L_per和对抗性损失L_adv的组合组成；其中，所述向量量化损失L_vq中添加了相应的分支项，损失函数如下式表示：

L＝L_vq+L_per+L_adv

其中，x、表示向量量化GAN模型的低分视频输入和降质低分视频输出，encoder(·)、vq(·)分别表示向量量化码本的输入和输出，f∈{0.5,0.25,0.125}，表示因子f对应的网络分支；训练时的输入为低质量遥感视频数据，向量量化GAN模型在训练过程中建立并更新向量量化码本，从而建模低质量数据中包含的降质先验；

所述步骤S2中的单向循环超分重建网络，通过结构剪枝和滑动窗口机制，利用连续图像帧序列进行超分辨率重建；

所述步骤S2中，训练单向循环超分重建网络分两步进行：

第一步，在数据集上独立训练单向循环网络，此时高分-低分视频对通过双三次下采样显式获得，损失函数为L₁损失，学习率为10^-4；

第二步，单向循环超分重建网络和向量量化GAN模型联合训练，此时高分-低分视频对通过双三次插值和降质退化模型生成，损失函数为L₁和L_per的组合，学习率为5×10^-5，该步训练时参数更新仅针对单向循环网络进行。