CN115131206A

CN115131206A - 一种基于语义理解的卫星视频超分辨率重建方法及系统

Info

Publication number: CN115131206A
Application number: CN202210715230.0A
Authority: CN
Inventors: 肖晶; 张真; 王密
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-30

Abstract

本发明提供了一种基于语义理解的卫星视频超分辨率重建方法及系统，进行数据准备，包括对高分辨率卫星视频的裁剪和数据预处理；将基本的超分模型加入部分卷积，得到改进的超分主干网络，然后添加到整体框架中，得到优化后的深度学习模型；所述整体框架包括使用前置分类网络对卫星影像进行语义分割，利用可变形卷积完成帧间配准，通过前置的语义分割结果和超分主干网络来提取不同语义类别的特征信息，最终完成语义特征的融合并超分辨率重建；对所得优化后的深度学习模型进行训练，根据训练所得优化后的深度学习模型对输入的低分辨率视频的超分辨率重建结果。本发明不仅可以有效地提高超分辨率精度，而且具有通用性、操作简单、性能强等优势。

Description

一种基于语义理解的卫星视频超分辨率重建方法及系统

技术领域

本发明属于卫星遥感影像处理领域，特别涉及到了卫星视频超分辨率重建方案，提出了一种新的深度学习模型来实现基于语义理解的卫星视频超分辨率重建的方案。

背景技术

近些年，随着深度学习在多媒体处理领域的应用不断加深，视频超分作为其中的一个重要研究方向，已经得到了快速的发展。卫星视频作为一种新型的对地观测工具，已广泛应用于遥感领域的动态分析。而对于视频卫星，虽然在时间分辨率方面具有明显优势，由于数据采集和传输的影响，视频卫星图像的空间分辨率和清晰度低。因此对卫星视频进行超分辨率重建，还原地物细节是非常重要的一个课题。

近年来，出现了许多优秀的自然视频超分辨率重建网络，如EDVR、TDAN、RSDN等。尽管目前的超分辨率重建方法在自然视频上取得了显著的效果，但仍不适合直接应用于卫星视频。首先，由于传感器分辨率的限制，卫星视频帧的分辨率比自然视频要低。卫星视频帧缺乏足够的纹理和细节信息，使得特征提取更加困难。其次，遥感图像的宽幅较大，由于运动对象的不同比例，帧的复杂度更高。最后，卫星视频中含有稀缺的运动信息，在遥感图像中，运动物体只占用很少的像素，导致运动信息的捕获困难。这三点使得卫星超分辨率重建难以进行有效的提取特征和时空信息融合。

过去的几年，有一些工作致力于提高基于深度学习的超分辨率重建方法在卫星视频上的表现。EGVSR框架在骨干超分模型的基础上增加了一条边缘分支，来进行图像边缘信息的超分重建，以此来克服卫星视频超分重建结果模糊的问题。它的骨干网络用来重建卫星视频的纹理信息，而边缘分支则用来增强卫星视频的高频信息。还有研究使用多尺度的可变形卷积进行帧间配准，以处理卫星视频中多尺度的运动物体和多尺度的运动，以及一种时间分组投影的策略，在降低投影复杂度的同时，也能保证参考帧在超分辨率重建过程中的主导地位。

这些工作都成功得改进了自然视频超分模型在卫星视频上得表现。但是这些工作只挖掘了卫星视频的部分特点，对于卫星视频而言，它所涉及到得地物类别有限，且不同类别间的差异较大，因此可以考虑根据卫星视频的语义信息来辅助卫星视频的超分辨率重建过程。目前国内外还没有一种基于语义理解的卫星视频超分辨率重建方法。在国内外期刊上，还没有相关论文发表。目前，国内也没有一种基于语义理解的卫星视频超分辨率重建方法以及授权专利。

发明内容

本发明针对当前卫星视频超分辨率重建问题，提供了一种基于语义理解的卫星视频超分辨率重建方案。

本发明提供的技术方案为一种基于语义理解的卫星视频超分辨率重建方法，包括以下步骤：

步骤1，数据准备，包括对高分辨率卫星视频的裁剪和数据预处理；

步骤2，将基本的超分模型加入部分卷积，得到改进的超分主干网络，然后添加到整体框架中，得到优化后的深度学习模型；所述整体框架包括使用前置分类网络对卫星影像进行语义分割，利用可变形卷积完成帧间配准，通过前置的语义分割结果和使用部分卷积改进的超分主干网络来提取不同语义类别的特征信息，最终通过注意力融合模块完成语义特征的融合并根据融合特征完成超分辨率重建；

步骤3，对步骤2所得优化后的深度学习模型进行训练；

步骤4，根据步骤3训练所得优化后的深度学习模型对输入的低分辨率视频提取相应的超分辨率重建结果。

而且，步骤1中，采用卫星视频数据集，并对数据集进行裁剪。

而且，步骤2中所述整体框架实现如下，

设输入的低分辨率视频序列集合

且第i个视频帧

其中，c表示输入通道的数量，h和w分别表示特征图的高度和宽度大小，n表示参考帧的范围半径，R表示实数集；

首先通过分类网络对输入的视频帧进行语义分割，这个过程的表示如下，

然后使用可变形卷积完成图像和分类结果的帧间配准，可变形卷积的偏移参数由图像差异学习得到，图像和分类结果的配准共用偏移参数；

对分类结果做预处理以便于作为特征提取网络的输入，得到一组二值的语义分割图

其中class_num表示分割语义类型的数量；

使用部分卷积替换超分主干模型用于特征提取的卷积，以提取出属于不同语义类别的特征，它以图像和预处理后对应的二值语义分割图作为输入，这个过程的表示如下，

其中，boneNet为使用部分卷积替换过的主干网络，对于每一个语义类别，都有相应的一个主干网络来完成特定类别的特征提取；

通过注意力融合模块对不同语义类别的特征和跨视频帧的特征进行融合，最后根据融合后的特征完成超分辨率重建。

而且，所述基础模型网络为EDVR或BisicVSR模型。

而且，步骤4中，通过输入低分辨率卫星视频，根据步骤3训练所得优化后的深度学习模型输出对应的超分辨率视频，从而实现超分辨率重建任务。

另一方面，本发明还提供一种基于语义理解的卫星视频超分辨率重建系统，用于实现如上所述的一种基于语义理解的卫星视频超分辨率重建方法。

而且，包括以下模块，

第一模块，用于数据准备，包括对高分辨率卫星视频的裁剪和数据预处理；

第二模块，用于将基本的超分模型加入部分卷积，得到改进的超分主干网络，然后添加到整体框架中，得到优化后的深度学习模型；所述整体框架包括使用前置分类网络对卫星影像进行语义分割，利用可变形卷积完成帧间配准，通过前置的语义分割结果和使用部分卷积改进的超分主干网络来提取不同语义类别的特征信息，最终通过注意力融合模块完成语义特征的融合并根据融合特征完成超分辨率重建；

第三模块，用于对第二模块所得优化后的深度学习模型进行训练；

第四模块，用于根据第三模块训练所得优化后的深度学习模型对输入的低分辨率视频提取相应的超分辨率重建结果。

或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于语义理解的卫星视频超分辨率重建方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于语义理解的卫星视频超分辨率重建方法。

本发明提供了一种基于语义理解的卫星视频超分辨率重建方案，解决了卫星视频超分辨率重建问题，该方案具有简单、有效、精度高、易于实现的特点。本发明提出了基于语义理解的超分框架和跨语义特征的融合模块，和现有技术相比，本发明具有如下优势，

(1)设计的基于语义理解的超分框架可以针对特定类别的地物类别学习特化的网络来提取特征，使主干网络获得更好的表现。

(2)针对跨语义的特征融合问题，设计了注意力融合模块，可以将不同语义空间的特征进行自动选择和高效融合，不仅可以减少冗余特征信息，还可以减少参数计算量。

(3)具有很强的实用性和通用性，可以将框架的主干部分替换为任意的超分网络，以提高网络的效果。

附图说明

图1为本发明实施例的单张图像特征提取主干网络的结构示意图。

图2为本发明实施例的基于语义理解的卫星视频超分辨率重建框架的结构示意图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

本发明技术方案可应用到多个传统模型中，可采用当前流行的深度学习框架进行训练模型，包括Pytorch等。

本发明实施例提供的一种基于语义理解的卫星视频超分辨率重建方法，包括以下步骤：

实施例采用了吉林一号卫星数据，并对数据集进行裁剪为256×256大小，序列长度为7帧的图像序列，每个图像序列都进行数据增强操作。该数据集包含了机场、市中心、山区、港口、火车站和郊区等场景，每个场景类别包含三到五段视频。视频的帧率为10帧每秒，长度从15秒到25秒不等，分辨率为3840×2160。

实施例中从每个场景中选取一段视频作为测试集来进行模型性能评价。

步骤2，模型设置，包括将基本的超分模型加入部分卷积后添加到整体框架中，即基于传统深度学习模型的特征提取网络添加到语义超分框架中，得到优化后的深度学习模型；

具体来说，输入视频通过前置分类网络对卫星影像进行语义分割，之后利用可变形卷积完成帧间配准，之后通过加入部分卷积的基本超分模型提取出各语义类别的特征信息，最终通过注意力融合模块完成语义特征的融合并根据融合特征完成超分辨率重建。

步骤3，模型训练，包括对步骤2所得优化后的深度学习模型进行训练，涉及对传统深度学习模型的训练以及整个框架的联合训练；

实施例中，采用了EDVR基础模型网络使用部分卷积替换后添加到语义超分框架中进行训练。训练平台主要是基于Pytorch开源框架，以Python语言为基础。同时需要高性能计算机，并配备有英伟达公司高性能显卡进行图形计算。

步骤4，输出结果，包括根据步骤3训练所得优化后的深度学习模型对输入的低分辨率视频提取相应的超分辨率重建结果。

实施例中将步骤3中的训练结果进行展示，通过输入低分辨率卫星视频，并输出对应的超分辨率视频，从而实现超分辨率重建任务。

卫星视频超分辨率重建框架的特征提取主干网络参见图2，实施例中特征提取主干网络的实现方式如下，

本发明实施例提出的特征提取主干网络是一种基于语义分割图进行特征提取的网络，它以卫星图像和其对应的语义分割图作为输入，通过将普通卷积替换为部分卷积，使其能够提取出特定语义类别的特征。由多个网络分支来学习不同语义类别的特征提取，使各个网络分支根据语义分类学习特化的特征，以得到更好的超分辨率重建效果。

为便于理解本发明卫星视频超分辨率重建框架的基本原理起见，先提供实施例的单张图像网络结构，可参考图1，该网络包括语义分割网络(前置网络)以及基于语义的超分网络，具体实现方式如下：

(1)语义分割图预处理。

对分类结果做预处理以便于作为特征提取网络的输入，得到一组二值的语义分割图。具体来说，对于某一语义类别class_j，它的二值语义分割图记为

则仅当语义分割图在该位置为class_j语义类别时，二值语义分割图

在该位置的值为1，其余情况下为0。

这个过程可以用下述公式表示，

其中，w与h分别表示图像的宽和高，i表示时间维度的索引，j表示类别索引，M_i(w,h)表示语义分割图。通过图1中语义分割网络Classifier的语义分割及语义分割图预处理得到的一组二值语义分割图将分别作为不同特征提取网络分支的输入，来指导分支网络提取不同语义类别的特征。

(2)构造特征提取主干网络。

首先，改造特征提取主干网络，包括将选取的特征提取主干网络中的卷积层替换为部分卷积，部分卷积的输入为特征图X和掩码M，输出更新后的特征图x′和掩码m′，部分卷积的表示如下，

其中掩码M即为语义分割图预处理得到的二值语义分割图，它随着输入图像不断地更新，指导特定语义类别的特征提取。W为卷积层的权重，b为卷积层的偏置，⊙表示元素级的乘法，sum()表示。

然后，如图1，改造后的特征提取主干网络将被复制为多个网络分支branch，例如有n个branch，在图1中分别记为Branch 1、Branch 2、…Branch n。对应各个语义类别的特征提取。最终，特征提取主干网络将会输出一组不同语义类别的特征。之后通过注意力融合模块Attention Fusion对这一组不同语义类别的特征进行融合，最后融合后的特征通过反卷积层DeConv完成超分辨率重建。

本发明实施例提出的基于语义理解的卫星视频超分辨率重建框架是一种通用的框架，它的特征提取主干网络可以替换成任意的基础模型网络，例如EDVR或BisicVSR模型。基于语义理解的卫星视频超分辨率重建框架简称语义超分框架，参见图2。基于语义理解的卫星视频超分辨率重建框架使用前置分类网络对卫星影像进行语义分割，利用可变形卷积完成帧间配准，通过前置的语义分割结果和使用部分卷积改进的超分主干网络来提取不同语义类别的特征信息，最终通过注意力融合模块完成语义特征的融合并根据融合特征完成超分辨率重建。

实施例的基于语义理解的卫星视频超分辨率重建框架具体实现方式如下：

(1)卫星视频语义分割。

卫星视频的语义分割，需要通过基于深度学习的遥感图像语义分割模型Classifier来实现。实施例中的语义分割模型将遥感图像分为建筑、道路、草地、河流等类别。作为整体框架的一个预处理模块，对语义分割模型并没有太多的限制，仅要求其输出为输入遥感图像对应的语义分割图。

(2)帧间配准。

帧间配准使用可变形卷积在特征域完成。使用可变形卷积在特征域进行帧间配准可以获得比直接在图像域使用光流配准更好的效果，这在许多自然视频的超分工作中都得到了证明。假设可变形卷积的感受野为R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}，则对于输出的每个位置p₀，它的输出可以表示如下，

其中，x表示输入，w为卷积核的权重，p_n为感受野中的某一位置，Δp_n为该位置上卷积核学习的偏移参数。偏移参数Θ的学习通过一列卷积层的串联来实现。

图2中，图像和语义分割图分别通过各自的特征提取卷积模块Conv_img和Conv_cls映射到特征空间，随后由卷积模块Conv_img输出的图像特征又经过偏移参数卷积模块Convs_p学习可变形卷积层Deformable Conv的偏移参数Θ，最终图像和语义分割图的特征在可变形卷积层Deformable Conv以及偏移参数Θ的作用下在特征域完成帧间配准。图像和语义分割图的特征提取卷积模块Conv_img和Conv_cls采用两个连续的3×3卷积对输入进行下采样，之后连接5个相同结构的残差块来进行深度特征提取，每个残差块中都有两个3×3的卷积层。偏移参数卷积模块Convs_p采用5个通道数不变的3×3卷积层，并且在最后连接一个3×3的卷积层将通道数变为18来生成每个位置上的偏移参数。

(3)主干网络特征提取。

主干网络以配准后的图像及其语义分割图为输入，首先对语义分割图进行预处理，得到一组二值的语义分割图。主干网络BoneNet中包含多个分支，具体实现可参考图1，每个分支分别以卫星图像和其对应的二值语义分割图作为输入，经过多层部分卷积，最终得到该分支对应语义类别的特征图。

(4)特征融合。

通过步骤(3)得到的特征可以由两个维度确定，一是时间维度t来确定来自某一视频帧，二是语义类别维度class来确定属于某一类。特征融合模块Attention Fusion采用一种交叉融合方式，由两种基本融合模块组成。跨类融合模块在语义类别维度进行注意力融合，时域融合模块在时间维度进行注意力融合。交叉融合方式使用这两种基本融合模块，它有两个分支，其中一个分支是先进行跨类融合再进行时域融合，另一个分支是先进行时域融合再进行跨类融合，最后使用一个卷积层来合并这两个分支。

(5)超分重建。

根据特征融合得到的特征图，将其做为反卷积层DeConv的输入来完成超分辨率重建。

实施例步骤2中所述整体框架实现如下，

设输入的低分辨率视频序列集合

且第i个低分辨率视频帧

其中，Classifier()表示语义分割过程，M_i表示结果。

然后使用可变形卷积完成图像和分类结果的帧间配准。可变形卷积的偏移参数由图像差异学习得到，图像和分类结果的配准共用偏移参数。

其中class_num表示分割语义类型的数量。

其中boneNet为使用部分卷积替换过的主干网络，这意味着对于每一个语义类别，都有相应的一个主干网络来完成特定类别的特征提取。

本发明提供的基于语义理解的卫星视频超分辨率重建框架优点在于：

为便于理解本发明的技术效果，提供本发明和仅使用骨干网络的应用对比如下：

表I框架与原骨干模型的对比结果(×4)

表I中记录了本发明和仅使用骨干网络在吉林一号卫星视频测试集上的结果。为了保证公平的对比，所有的模型都采用了相同的训练策略。可以看到，所有的模型在使用了基于语义理解的卫星视频超分辨率重建框架后PSNR都得到了提升。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种基于语义理解的卫星视频超分辨率重建系统，包括以下模块，

在一些可能的实施例中，提供一种基于语义理解的卫星视频超分辨率重建系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于语义理解的卫星视频超分辨率重建方法。

在一些可能的实施例中，提供一种基于语义理解的卫星视频超分辨率重建系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于语义理解的卫星视频超分辨率重建方法。

本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于语义理解的卫星视频超分辨率重建方法，包括以下步骤：

步骤3，对步骤2所得优化后的深度学习模型进行训练；

步骤4，根据步骤3训练所得优化后的深度学习模型，对输入的低分辨率视频提取相应的超分辨率重建结果。

2.根据权利要求1所述基于语义理解的卫星视频超分辨率重建方法，其特征在于：步骤1中，采用卫星视频数据集，并对数据集进行裁剪。

3.根据权利要求2所述基于语义理解的卫星视频超分辨率重建方法，其特征在于：步骤2中所述整体框架实现如下，

设输入的低分辨率视频序列集合

且第i个视频帧

其中class_num表示分割语义类型的数量；

4.根据权利要求1或2或3所述基于语义理解的卫星视频超分辨率重建方法，其特征在于：所述基础模型网络为EDVR或BisicVSR模型。

5.根据权利要求1或2或3所述基于语义理解的卫星视频超分辨率重建方法，其特征在于：步骤4中，通过输入低分辨率卫星视频，根据步骤3训练所得优化后的深度学习模型输出对应的超分辨率视频，从而实现超分辨率重建任务。

6.一种基于语义理解的卫星视频超分辨率重建系统，其特征在于：用于实现如权利要求1-5任一项所述的一种基于语义理解的卫星视频超分辨率重建方法。

7.根据权利要求6所述基于语义理解的卫星视频超分辨率重建系统，其特征在于：包括以下模块，

8.根据权利要求6所述基于语义理解的卫星视频超分辨率重建系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-5任一项所述的一种基于语义理解的卫星视频超分辨率重建方法。

9.根据权利要求6所述基于语义理解的卫星视频超分辨率重建系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-5任一项所述的一种基于语义理解的卫星视频超分辨率重建方法。