CN111209813A

CN111209813A - 基于迁移学习的遥感图像语义分割方法

Info

Publication number: CN111209813A
Application number: CN201911376836.0A
Authority: CN
Inventors: 孔莹莹; 张博文; 闫碧原; 刘艳娟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-29
Anticipated expiration: 2039-12-27
Also published as: CN111209813B

Abstract

本发明公开了一种基于迁移学习的遥感图像语义分割技术，涉及遥感图像处理技术领域，解决了遥感图像语义分割的深度学习方法上的耗时长、应用范围窄等技术问题，其技术方案要点是应用迁移学习技术，将由其他数据集即源域训练的初始化模型经过迁移后应用在遥感图像即目标域的语义分割任务上，迁移后的初始化模型只需训练该初始化模型未被冻结的参数层，在准确率相近的情况下大大降低了模型的训练时长，提高了深度学习网络模型的可重用性。

Description

基于迁移学习的遥感图像语义分割方法

技术领域

本公开涉及遥感图像处理技术领域，尤其涉及一种基于迁移学习的遥感图像语义分割方法。

背景技术

遥感是一种非接触、远距离的探测技术，一般指运用传感器或遥感器对物体的电磁波辐射、反射特性进行探测，通过这类对电磁波敏感的仪器，在远离目标或不接触目标物体条件下探测目标的地物。遥感技术在国土检测、灾情评估、城市规划、军事勘探等多方面有着广泛的应用，对其获取的图像进行语义分割即将其分割为各种类别的图像块是对其进一步应用的基础。目前图像语义分割的主流实现方法为深度学习，但其训练的耗时较长、应用范围较窄。

发明内容

技术目的：克服遥感图像语义分割的深度学习方法上的耗时长、应用范围窄等问题。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种基于迁移学习的遥感图像语义分割方法，包括：

选择源域数据训练网络为初始化网络W，使用所述W初始化目标网络模型的浅层参数，然后冻结初始化后的所述浅层参数，被冻结的所述浅层参数不参与所述目标网络模型的后续训练；

获取所述源域数据和遥感图像数据的最大平均差异MMD指标以及SMTD指标；

若所述SMTD指标小于预设阈值σ，使用所述遥感图像数据训练所述目标网络模型中未被初始化的参数层，直至所述目标网络模型收敛则得到最终分割模型，否则继续训练；

使用所述最终分割模型进行遥感图像语义分割。

进一步地，所述

其中，H表示该MMD距离将数据映射到再生核希尔伯特空间(Reproducing Kernel HilbertSpace,RKHS)中的度量，X为所述源域数据，x_i为所述源域数据中需要进行分类的像素，Y表示所述遥感图像数据，y_i为所述遥感图像数据中需要进行分类的像素，φ(.)为特征空间的映射函数，i,j,m,n为正整数。

进一步地，所述SMTD指标为

其中，Y_s→t为源域数据到遥感图像数据的标签空间变化量，A_t与A_s为使用所述最终分割模型分别在源域数据和遥感图像数据进行深度监督学习时得到的验证集上的准确率。

本公开的有益效果在于：应用迁移学习技术可以将由其他数据集训练的网络中的通用特征(点、线等)迁移到遥感图像上，避免了特征的重复学习，与现有的基于深度学习的遥感图像语义分割技术相比，本公开降低了深度学习模型的训练时间，提高了深度学习模型的可重用性。

附图说明

图1为本公开方法流程图；

图2为迁移学习整体架构示意图；

图3是遥感图像数据示例图，其中(a)为遥感图像；(b)为对应的DSM；(c)为人工标注的标签；

图4为三种迁移学习方案最终分割结果示例图，(a)为原始遥感图像；(b)为对应的DSM；(c)为UAV-DSM迁移结果示意图；(d)为由遥感图像的数据直接训练的模型的输出结果；(e)为由MSRC迁移的模型的输出结果；(f)为人工标注的标签。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。

迁移学习是在给定的领域中执行新任务时，利用其他相关领域中足够多的先验知识来模拟人类视觉系统。在迁移学习中，训练数据和测试数据都有助于两种类型的域，即目标域和源域，如图2所示。本公开中，用于初始化目标网络模型浅层网络的数据为源域，遥感图像数据为目标域。

基于深度学习的目标识别任务总体上来说是一种数据驱动的方法，通过数据中的真实信息以各种优化方法来寻找采用的特定网络模型结构中的参数最优值。一般来说经过特定数据集训练后的网络模型只能应用在与训练数据集相近的邻域中，但其在浅层中学习到的通用特征使其存在着应用于其它领域的潜力。本发明采用迁移学习技术，使用由其它数据集训练的网络中的参数初始化待用来进行遥感图像语义分割的网络中的部分参数，并在使用遥感图像作为训练数据集时固定这些参数，仅通过训练过程优化后部未经上述方法初始化的参数。整体的步骤如下：首先进行适用于遥感图像语义分割任务的网络模型的构建，再挑选已由其它数据集训练完成的与上述网络结构相近模型，以其浅层的参数初始化上述网络并固定，最后由遥感图像数据通过梯度下降方法训练未经固定的参数直到网络收敛，以得到适用于遥感图像语义分割的网络模型。

图1为本公开方法流程图，如图1所示，选择源域数据训练网络为初始化网络W，使用W初始化目标网络模型的浅层参数，然后冻结初始化后的浅层参数，被冻结的浅层参数不参与目标网络模型的后续训练。获取源域数据和遥感图像数据的最大平均差异MMD指标以及SMTD指标；若SMTD指标小于预设阈值σ，使用所述遥感图像数据训练所述目标网络模型中未被初始化的参数层，直至所述目标网络模型收敛则得到最终分割模型，然后使用最终分割模型进行遥感图像语义分割。

一般地，为了度量源域与目标域之间的距离，采用一种最大平均差异(MaximumMean Discrepancy,MMD)指标来度量两个不同的且相关的概率分布之间的距离，定义为

其中，H表示该MMD距离将数据映射到再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)中度量，X为源域数据，x_i为源域数据中需要进行分类的像素，Y表示遥感图像数据，y_i为遥感图像数据中需要进行分类的像素，φ(.)为特征空间的映射函数，i,j,m,n为正整数。上式可以展开为：

并使用高斯核

作为映射到再生核希尔伯特空间的核函数，以映射到无穷维的空间。其中，u,v为高斯核变量，σ为高斯核方差。

同时采用一种相似模型任务差异SMTD(SimilarModelTaskDiscrepancy)指标度量迁移前后的任务相似度分析：SMTD指标为

其中，D为源域数据与遥感图像数据之间的定量距离，本公开中使用上述MMD作为此距离，亦可选取其它评价标准作为此距离。Y_s→t为源域数据到遥感图像数据的标签空间变化量，A_t与A_s为使用最终模型分别在源域数据和遥感图像数据进行深度监督学习时得到的验证集上的准确率。在实验中，SMTD指标越小，迁移学习后的最终模型的准确率越高。

首先使用其它网络的浅层参数初始化用于遥感图像图义分割的目标网络模型的浅层网络，并获取源域和目标域的SMTD指标，并根据源域与目标域的具体状态预设一阈值σ，若计算得到的SMTD指标小于该预设阈值，则将初始化后的目标网络模型进行下一步训练，将遥感图像数据投入到未经上述初始化的参数层中进行训练，直到网络收敛并得到最终分割模型；否则认为该迁移学习任务不可行。

本公开具体实施例中，无人机图像为源域，遥感图像为目标域，以一个双路结构的全卷积网络网络模型为例，分别接受遥感图像与其对应的DSM(Digital surface model，数字表面模型)为输入，共包含289个需要训练的参数层，图3为遥感图像数据示例图。在深度学习的网络模型中，位于前部的参数层所学习到的特征为底层特征(如特征点、线等)，而位于后部的参数层学习相应的高级特征(如语义、上下文等)。应用迁移学习技术，使用其他数据集(无人机图像)训练完成的网络模型作为初始化参数并冻结其中部分位于前部的参数层(即固定这些层中包含的参数不予训练)，仅训练后部的参数，在最大化地重用网络模型的同时降低网络的训练时间。此处分别以三种不同的方式训练网络模型，并使用如图4(a)所示原始遥感图像数据，以此来说明本公开的方法，具体如下：

(1)将网络模型参数进行随机初始化后，直接由遥感图像进行训练，即重新训练所有289个参数层；此方案未经迁移学习，直接由目标域数据进行训练，结果为图4(d)。

(2)将网络模型参数由无人机图像及其对应的DSM训练的网络模型参数初始化，冻结图像支路与DSM支路的前端部分，仅训练网络模型的后半部分。冻结的部分包含两个支路前部的共195个参数层，即仅使用遥感图像数据集训练网络模型两个支路后部的共94个参数层。此方案以无人机图像为源域，遥感图像为目标域实行迁移，二者在数据的表现上有较高的相似度，应用迁移学习进行遥感图像语义分割效果最佳，如图4(c)(与图4(f)人工标注的标签对比可知，图4(c)的效果最佳)。

(3)使用MSRC(Microsoft Research Cambridge，微软剑桥研究院)数据集训练的模型初始化网络模型的图像支路(由MSRC数据集训练的网络模型中无DSM支路)，网络模型的DSM支路随机初始化，并冻结图像支路的前端部分，同时训练网络模型的DSM支路与图像支路的后端部分。冻结的部分包含图像支路的120个参数层，即使用遥感图像数据集训练余下的169个参数层。此方案以MSRC数据集中的通常图像为源域，遥感图像为目标域实行迁移。二者在数据的表现上有着不算很高的相似度，故应用迁移学习进行遥感图像的语义分割的效果一般，如图4(e)，但仍可降低模型的训练时间，提高模型的可重用性。

相近区域的遥感图像与无人机图像的主要差异为拍摄高度不同，由此带来尺度特性上的变化，故是所有实验方案中均需重新训练的部分，即网络后部的共94个参数层。

由无人机图像的训练结果迁移的模型一般来说虽然在训练准确率上高于由遥感图像直接训练的模型，但其泛化性能不及前者。虽然如此，后者在不到一半的训练时间内达到了与直接训练相近的准确率，图4由上述三种实验方案训练的模型生成的语义分割图的示例图。

以上为本公开示范性实施例，本公开的保护范围由权利要求书及其等效物限定。

Claims

1.一种基于迁移学习的遥感图像语义分割方法，其特征在于，包括：

使用所述最终分割模型进行遥感图像语义分割。

2.如权利要求1所述的基于迁移学习的遥感图像语义分割方法，其特征在于，所述

其中，H表示该MMD距离将数据映射到再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)中的度量，X为所述源域数据，x_i为所述源域数据中需要进行分类的像素，Y表示所述遥感图像数据，y_i为所述遥感图像数据中需要进行分类的像素，φ(.)为特征空间的映射函数，i,j,m,n为正整数。

3.如权利要求2所述的基于迁移学习的遥感图像语义分割方法，其特征在于，所述SMTD指标为