CN116665064B

CN116665064B - 基于生成蒸馏与特征扰动的城市变化图生成方法及其应用

Info

Publication number: CN116665064B
Application number: CN202310927183.0A
Authority: CN
Inventors: 郁强; 黄乾玮; 韩致远; 张香伟; 王国梁
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-10-13
Anticipated expiration: 2043-07-27
Also published as: CN116665064A

Abstract

本申请提出了基于生成蒸馏与特征扰动的城市变化图生成方法及其应用，包括教师模型和学生模型分别学习。教师模型的双编码器接受双时态高清图像与标签文件，主解码器预测无扰动处理的特征图，辅助解码器预测弱扰动处理的特征图。辅助解码器的预测图与主解码器的预测图进行半监督损失计算，主解码器的预测图作为伪标签输入给学生模型的生成器。学生模型对未标记的双时态高清图像进行特征提取，每层特征经过强扰动处理。生成器将强扰动处理后的随机像素强制生成教师模型的完整特征，得到预测图。生成器的预测图与部分真实标签和伪标签进行损失计算。教师模型和学生模型训练完成后，输入双时态的城市俯瞰图片到学生模型中，生成城市变化图。

Description

基于生成蒸馏与特征扰动的城市变化图生成方法及其应用

技术领域

本申请涉及深度学习技术领域，特别是一种涉及基于生成蒸馏与特征扰动的城市变化图生成方法及其应用。

背景技术

现今城市变化检测的数据来源于无人机或卫星遥感。但检测的结果受限于设备的图像分辨率。而图像分辨率的提升往往受到成像传感器的硬件成本、制造工艺和信息传输条件的限制，若提升会增加体积、功耗、重量。因此如何在不增加卫星、无人机相机体积和重量的前提下，利用多时相低分辨率图像获取更多的高频信息，检测出城市变化是难点。此外在拍摄的过程中，卫星电磁波也会受大气传播介质干扰，无人机则会因波动导致图像分辨率不清晰。同时，变化检测是图像像素级别分类任务。非常依赖于数据的特性，并且图像分割标注比较费时。

通常较大的模型具有较好的性能，但推理速度较慢，难以在有限的资源部署。为克服这个问题，才有知识蒸馏技术的提出。但目前的知识蒸馏算法通常通过模仿教师模型的输出来提高学生模型的表现，导致学生模型的特征表征能力欠佳。

因此，亟待基于生成蒸馏与特征扰动的城市变化图生成方法及其应用，能够解决现有技术存在的问题。

发明内容

本申请实施例提供了基于生成蒸馏与特征扰动的城市变化图生成方法及其应用，针对目前技术存在的图像分辨率提升成本高、图像分割标注费力以及模型越大推理速度越慢等问题。

本发明核心技术主要是在模型主结构上采用知识蒸馏模块结合生成器形式、在算法性能上设计特征扰动策略、在模型数据上采用半监督方法解决像素标注问题，训练时教师模型的预测图会作为伪标签输入学生模型。

第一方面，本申请提供了基于生成蒸馏与特征扰动的城市变化图生成方法，所述方法包括以下步骤：

S00、分别通过教师模型和学生模型进行学习，以双时态高清图像与标签文件作为教师模型的输入，以未标记的双时态高清图像作为学生模型的输入；

其中，教师模型网络堆叠层数深于学生模型；

S10、以双编码器、单主解码器以及多个辅助解码器组成教师模型，通过双编码器输入双时态高清图像与标签文件，通过教师模型对双时态高清图像与标签文件进行弱扰动处理，通过主解码器对输入的无扰动处理的特征图进行预测，通过辅助解码器对输入的弱扰动处理的特征图进行预测；

S20、各辅助解码器的预测图与主解码器的预测图做半监督损失计算，以主解码器的预测图作为伪标签输入学生模型的生成器中；

S30、通过学生模型对未标记的双时态高清图像进行特征提取，每一层特征经过强扰动处理；

S40、将强扰动处理后的随机像素经过生成器强制生成教师模型的完整特征，得到预测图；

S50、将生成器的预测图与部分真实标签和伪标签做损失计算；

S60、完成教师模型和学生模型训练，输入双时态的城市俯瞰图片到学生模型中，生成城市变化图。

进一步地，S10步骤中，辅助解码器的数量依据弱扰动处理的种类而定，辅助解码器与类别个数一一对应。

进一步地，S00步骤中，双时态高清图像为两张不同时间段的同一位置的图像。

进一步地，S00步骤中，教师模型网络堆叠层数为学生模型的两倍及以上倍数。

进一步地，S40步骤中，强扰动处理为对特征提取后的图像随机部分特征采用均值滤波，并在特征提取过程中采用Dropout随机失活神经元。

进一步地，S40步骤中，生成器通过卷积特征提取网络组成。

进一步地，S40步骤中，生成器的卷积特征提取网络分别由512、256、128、64维的卷积特征提取层构成。

第二方面，本申请提供了一种基于生成蒸馏与特征扰动的城市变化图生成装置，包括：

训练模块，分别通过教师模型和学生模型进行学习，以双时态高清图像与标签文件作为教师模型的输入，以未标记的双时态高清图像作为学生模型的输入；其中，教师模型网络堆叠层数深于学生模型；以双编码器、单主解码器以及多个辅助解码器组成教师模型，通过双编码器输入双时态高清图像与标签文件，通过教师模型对双时态高清图像与标签文件进行弱扰动处理，通过主解码器对输入的无扰动处理的特征图进行预测，通过辅助解码器对输入的弱扰动处理的特征图进行预测；各辅助解码器的预测图与主解码器的预测图做半监督损失计算，以主解码器的预测图作为伪标签输入学生模型的生成器中；通过学生模型对未标记的双时态高清图像进行特征提取，每一层特征经过强扰动处理；将强扰动处理后的随机像素经过生成器强制生成教师模型的完整特征，得到预测图；将生成器的预测图与部分真实标签和伪标签做损失计算；

输入模块，输入双时态的城市俯瞰图片到训练完成的学生模型中；

输出模块，输出城市变化图。

第三方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的基于生成蒸馏与特征扰动的城市变化图生成方法。

第四方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的基于生成蒸馏与特征扰动的城市变化图生成方法。

本发明的主要贡献和创新点如下：1、与现有技术相比，本申请在模型主结构设计上，为保证模型轻量化的同时又不失准确率，采用知识蒸馏模块（强扰动处理）结合生成器形式，引导学生轻量模型从低分辨率特征恢复高分辨率特征，从而提高学生模型对低分辨率图像场景的抗噪性；

2、与现有技术相比，本申请在算法性能上，针对无人机、遥感技术低分辨率场景下检测效果不佳问题，设计特征扰动策略。训练上教师模型将会采用弱扰动策略，而学生模型则是采用强扰动策略。学生模型，随着高清双时相图的输入，会逐层随机对图像特征模糊化，以模拟介质干扰下低分辨率场景。

3、与现有技术相比，本申请在模型数据上，采用半监督方法解决像素标注问题，训练时教师模型的预测图会作为伪标签输入学生模型。可以扩展标注数据、提升模型性能和强化特征表达。这种方法可以在像素标注问题中有效地利用未标记数据，从而改善模型的训练效果和推广能力。

4、与现有技术相比，本申请在模型细节上，教师模型由主要编码器和辅助解码器构成。无扰动特征图输入主解码器，而经过弱扰动处理的特征图则依次输入辅助解码器，各解码器之间预测图实施半监督损失。可以在多个视角下对输入数据进行预测，提高预测稳定性、强化学习信号和提升模型鲁棒性，从而提升模型的性能和准确性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于生成蒸馏与特征扰动的城市变化图生成方法的流程；

图2是利用本申请的方法具体实施处理过程图；

图3是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述

实施例一

本申请旨在提出基于生成蒸馏与特征扰动的城市变化图生成方法，具体地，参考图1，所述方法包括以下步骤：

其中，教师模型网络堆叠层数深于学生模型，输入图像会经过特征提取转为深度为512维的深度特征图，再输入解码器。而学生模型则是转为深度为256维的深度特征图输入解码器；

在本实施例中，双时态图像指的是不同时间段的图像。因为需要检测城市变化，需要一段周期时间。两张图像分别对应不同时间段的同一位置的图像，可能是一个月或者一年。标签文件是图1中教师模型中中间的图像。两时态图中间件夹着的标签文件的图，也是图1里真实标签label。

在本实施例中，教师模型的辅助解码器无固定个数，依据弱扰动处理的种类，生成对应类别个数。弱扰动处理即对图像特征进行缩小，伸展，部分掩码。若采用缩小，部分掩码两类，则对应拼接两个辅助解码器。编码器通过对特征图施加的不同扰动会导致预测结果可变，再经过辅助解码器与主解码器之间的学习变相提高预测稳定性。

S20、各辅助解码器的预测图Out3、Out4与主解码器的预测图Out2做半监督损失计算，以主解码器的预测图Out2作为伪标签输入学生模型的生成器中；

在本实施例中，各辅助解码器的预测图Out3、Out4会与主解码器的预测图Out2做半监督损失。公式表示如下：

其中，表示n个未标注数据的集合；

，其中/>分别表示不同时态的无标注图像（双时态高清图像），/>是一组数据；/>表示对应的像素级标签；d表示输出之间距离的度量（MSE）；/>表示解码器输出预测/>;g表示主解码器；/>表示辅助分类器；k为解码器个数，/>。

在本实施例中，强扰动处理即对图像随机部分特征采用均值滤波，此外在卷积特征网络提取过程中采用Dropout随机失活神经元。对学生模型的第个特征用第/>个随机滤波模糊，可以公式化为：

其中，（0,1）中的随机数，i,j分别是特征图的水平坐标和垂直坐标，λ为超参数，mean filter（均值滤波器）是一种常见的图像滤波技术，用于减少图像中的噪声和平滑图像。不在坐标范围内的特征则保持原样。卷积特征提取网络由多个卷积层构成。若第/>层卷积层，则其输出的特征图则为第l个特征。因为每个特征图都会运用随机滤波模糊，所以也对应第/>个随机滤波模糊。优选地，如图1所示，卷积特征提取网络分别由512、256、128、64维的卷积特征提取层构成。生成器的任务是将S301的输入模糊特征图重新生成预测图Out1。

其中，Dropout是一种正则化技术，用于减少深度神经网络中的过拟合现象。在训练过程中，Dropout会随机将一些神经元的输出置为零，即失活（deactivate），这些神经元在当前的训练迭代中不参与前向传播和反向传播。每个神经元被临时失活的概率由预先设定的失活率确定。通过失活部分神经元，Dropout可以强迫神经网络的不同部分在训练期间独立地学习有用的特征，并减少神经元之间的相互依赖关系。这样可以提高网络的泛化能力，减轻过拟合的风险。在具体实现中，Dropout通常通过一个掩码（mask）来实现神经元的失活。掩码是与神经元数量相同的二进制向量，其中1表示神经元保持活动状态，0表示神经元被失活。在每个训练迭代中，掩码会随机生成，然后乘以对应的神经元输出，将部分神经元输出置为零。在测试阶段，不使用Dropout，而是将每个神经元的输出乘以失活率的期望值，以保持相同的输出期望值。通过引入Dropout，可以减少过拟合，提高模型的鲁棒性和泛化能力。

在本实施例中，学生模型在预测的过程是采用生成器生成形式。以往基于特征的提取方法，由于教师模型在特征提取性能上具有更强的表征能力，通常会让学生尽可能地模仿教师的输出。其实通过模仿教师模型来提高学生特征的表征能力并不是必要的。因为基于蒸馏方法的特征通常是通过深度网络获得的高阶语义信息，特征像素已经在一定程度上包含了相邻像素的信息。因此可以使用部分像素特征图经过简单的生成器来还原教师的全部特征，提高模型对像素级别特征理解。模糊生成蒸馏（强扰动处理）的思想即通过均值滤波模糊学生特征的随机像素，最后通过一个简单的生成器强制其生成教师的完整特征，从而提高模型在低分辨率场景下的抗噪性。

在本实施例中，经过生成器后，学生模型的生成图Out1将依据结构相似性算法与部分真实标签label和教师模型的伪标签Out2做损失。可以公式化为：

其中对应于两组图，两组图分别为图像1（Out1，label）、图像2（Out1，Out2），/>表示将图像1亮度估计，/>表示将图像2亮度估计，/>为超参数，是为了避免/>接近0时造成系统的不稳定。H与M分别对应图片长度与宽度，/>是亮度值的平方，是希望分母能以方差的形式表示。

其中为对比度对比函数，/>为两图像的对比度测量标准差，/>同/>。

其中结构对比函数，/>同/>，/>、/>均为超参数。

其中α、β、γ>0，为超参数，用来调整这三个模块的重要性。

S304：模型训练总的损失以公式化为：

其中为超参数。

在本实施例中，如图2所示，图2中第一张图为几个月前的某地俯瞰图，第二张图为当前的某地俯瞰图，第三张图为输出的城市变化图，可见在第一张图分辨率较低，图片较为模糊的情况下，利用本申请的方法仍然能够较好地分割图像之间的变化部分。

实施例二

基于相同的构思，本申请还提出了一种基于生成蒸馏与特征扰动的城市变化图生成装置，包括：

输出模块，输出城市变化图。

实施例三

本实施例还提供了一种电子装置，参考图3，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意基于生成蒸馏与特征扰动的城市变化图生成方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是双时态的城市俯瞰图等，输出的信息可以是城市变化图等。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的基于生成蒸馏与特征扰动的城市变化图生成方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以作出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，包括以下步骤：

S00、分别通过教师模型和学生模型进行学习，以双时态高清图像与标签文件作为所述教师模型的输入，以未标记的双时态高清图像作为所述学生模型的输入；

其中，所述教师模型网络堆叠层数深于所述学生模型；

S10、以双编码器、单主解码器以及多个辅助解码器组成所述教师模型，通过双编码器输入双时态高清图像与标签文件，通过所述教师模型对双时态高清图像与标签文件进行弱扰动处理，通过主解码器对输入的无扰动处理的特征图进行预测，通过辅助解码器对输入的弱扰动处理的特征图进行预测；

S20、各辅助解码器的预测图与主解码器的预测图做半监督损失计算，以主解码器的预测图作为伪标签输入所述学生模型的生成器中；

S30、通过所述学生模型对未标记的双时态高清图像进行特征提取，每一层特征经过强扰动处理；

S40、将强扰动处理后的随机像素经过生成器强制生成所述教师模型的完整特征，得到预测图；

S60、完成所述教师模型和所述学生模型训练，输入双时态的城市俯瞰图片到所述学生模型中，生成城市变化图。

2.如权利要求1所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S10步骤中，所述辅助解码器的数量依据弱扰动处理的种类而定，所述辅助解码器与类别个数一一对应。

3.如权利要求1所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S00步骤中，所述双时态高清图像为两张不同时间段的同一位置的图像。

4.如权利要求1所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S00步骤中，所述教师模型网络堆叠层数为所述学生模型的两倍及以上倍数。

5.如权利要求1-4任意一项所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S40步骤中，所述强扰动处理为对特征提取后的图像随机部分特征采用均值滤波，并在特征提取过程中采用Dropout随机失活神经元。

6.如权利要求5所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S40步骤中，所述生成器通过卷积特征提取网络组成。

7.如权利要求6所述的基于生成蒸馏与特征扰动的城市变化图生成方法，其特征在于，S40步骤中，所述生成器的卷积特征提取网络分别由512、256、128、64维的卷积特征提取层构成。

8.基于生成蒸馏与特征扰动的城市变化图生成装置，其特征在于，包括：

输出模块，输出城市变化图。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的基于生成蒸馏与特征扰动的城市变化图生成方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至7任一项所述的基于生成蒸馏与特征扰动的城市变化图生成方法。