CN111079649A

CN111079649A - 基于轻量化语义分割网络的遥感图像地物分类方法

Info

Publication number: CN111079649A
Application number: CN201911300840.9A
Authority: CN
Inventors: 张向荣; 王昕�; 焦李成; 李辰; 唐旭; 周挥宇; 陈璞花; 古晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-28
Anticipated expiration: 2039-12-17
Also published as: CN111079649B

Abstract

本发明公开了一种基于轻量化语义分割网络的遥感图像地物分类方法，主要解决现有方法由于图像空间和通道特征信息利用不足且模型庞大，而导致的对遥感图像地物分类精度不高、训练速度较慢的问题。其方案为：在遥感图像地物分类数据集中获取训练样本和测试样本；构建引入可拓宽通道分解空洞卷积的轻量化遥感图像地物分类模型，设计关注地物边缘的整体损失函数；将训练样本输入到所构建的地物分类模型中训练，得到训练好的模型；将测试样本输入训练好的模型中，预测输出遥感图像中地物分类结果。本发明提升了特征的表达能力，减少了网络参数，提高了遥感图像地物分类的平均精度和训练速度，可用于获取一幅遥感图像的地物分布情况。

Description

基于轻量化语义分割网络的遥感图像地物分类方法

技术领域

本发明属于图像处理技术领域，特别涉及一种地物分类方法，可用于土地利用分析、环境保护以及城市规划。

背景技术

遥感图像地物分类，旨在取代繁琐的人工作业，利用地物分类方法，得到输入遥感图像的地物和背景的分类结果图。通过地物分类结果，可以进行土地利用分析、环境保护以及城市规划等多种应用。

目前的地物分类方法大致可以分为两类：

第一类是基于传统机器学习的方法，通常采用由特征提取器和分类器组成的双层结构。特征提取器旨在从图像的局部提取空间和纹理特征，将像素的空间排列编码为高维表示。学界已经提出了一些功能强大的特征提取方法，如方向梯度直方图HOG、尺度不变特征变换SIFT和加速鲁棒特征SURF。而分类器根据提取的特征对图像中的每个像素进行预测。通常使用支持矢量机、随机森林和K-均值聚类方法。

第二类是基于深度学习的机器学习方法，通常使用卷积与反卷积操作对输入图片进行特征提取与分辨率恢复，并实现像素级的地物分类。

上述两类方法中前者由于图像中光照的巨大变化以及形状和颜色与不同类别物体的强烈相似性，无法达到令人满意的效果；后者利用标记样本，能够取得较好的结果，但是往往参数巨大，训练过程耗时费力。

目前的遥感图像地物分类方法常使用对称式的编码器-解码器网络结构，编码器提取图像多个尺度的特征并与对应尺度的解码器特征进行融合，从而恢复空间信息，获得更清晰的目标边界。例如Yuhao Wang等人发表的论文“Dense Semantic Labeling withAtrous Spatial Pyramid Pooling and Decoder for High-Resolution Remote SensingImagery”(Remote Sensing,2019年)中利用深度残差网络(ResNet)和空洞空间金字塔池化(ASPP)作为编码器，在上采样阶段将尺度不同的两个高级特征和他们对应的低级特征融合作为解码器，使用一个多尺度损失函数来增强学习过程，并在后处理中采用了一种新的基于超混合的稠密条件随机场来细化预测。此方法充分利用编码器-解码器结构能够恢复空间特征的特性，能够较好地提取各地物的特征，但是其直接将相同尺寸的高级特征与低级特征在通道维度上进行拼接的融合方式比较粗糙，忽略了对高级特征图更有效的利用和对地物类别边缘的细致化处理，同时网络参数很多，训练费时，这些都制约了对遥感图像地物分类任务在精度和速度上的提升。

发明内容

本发明的目的在于克服上述现有方法存在的不足，提出了一种轻量化语义分割网络的遥感图像地物分类方法，以提高对遥感图像地物分类的精度和速度。

本发明的技术方案是：充分考虑到轻量化网络的参数约减问题以及如何进一步利用图像空间和通道特征信息的问题，在语义分割网络中引入可拓宽通道分解空洞卷积以利用多尺度的特征信息和增强的语义信息。首先从由可拓宽通道分解空洞卷积组成主体的编码器网络中提取多个层级的特征图,对这些多个层级下的特征图，使用bottleneck结构将相邻层级的特征图拼接融合，丰富特征图的语义信息；然后摒弃传统对称式编码器-解码器框架中将编码器的多个尺度特征与对应尺度的解码器特征进行融合的方法，转而直接使用注意力金字塔网络模块APN在解码器内部进行特征融合；最后将融合后的特征与编码器特征进行点乘和上采样操作，恢复图像的空间信息，预测地物分类的结果。具体实现步骤包括如下：

(1)将输入的遥感图像划分为训练样本和测试样本：

对输入的遥感数据集进行可交叠地切图，划分为N个大小为H×H的图像块，并从N个图像块中随机选取80％左右的图像块作为训练样本，其余的图像块作为测试样本，N≥60，H≥500；

(2)构建引入可拓宽通道分解空洞卷积的轻量化遥感图像地物分类模型：

(2a)将输入遥感图像经过多个下采样和多个可拓宽通道分解空洞卷积，得到编码器特征F；

(2b)用注意力金字塔网络APN作为解码器网络，将编码器特征F输入到该解码器网络中，得到三路特征图F1、F2、F3；

(2c)根据三路特征图F1、F2、F3得到预测图Q；

(3)针对标签图地物边缘标记模糊的特点，设计轻量化语义分割网络的损失函数L：

(3a)将原标签图进行标签平滑和高斯滤波处理得到新的标签图P；

(3b)根据标签图P和预测图Q的信息熵差值，构造损失函数L；

(4)对(2)构建的轻量化遥感图像地物分类模型进行训练：

(4a)设初始学习率baselr为0.0005，当前学习率计算公式为：lr＝baselr×(1-iter/maxiter)^0.9，其中lr是当前的学习率，iter是当前迭代轮数，maxiter是最大迭代轮数。优化器使用Adam，最大迭代轮数设为300，随机初始化模型参数；

(4b)将训练样本输入到构建的轻量化遥感图像地物分类模型中，使用优化器Adam优化(3b)中的损失函数L，更新轻量化遥感图像地物分类模型的权重参数，当训练轮数达到300时，得到训练好的轻量化遥感图像地物分类模型；

(5)将测试样本输入到训练好的轻量化遥感图像地物分类模型中，预测输出测试样本中各像素所属的地物种类，得到遥感图像的地物分类结果。

本发明与现有的技术相比具有以下优点：

第一，本发明由于使用bottleneck结构的下采样，可以在加深网络层数获取更多上下文特征的同时，减少了运算量，较好地保留了图像的空间特征。

第二，本发明由于使用了可拓宽通道分解空洞卷积，可以获取更多图像通道特征，并能够在减小网络参数量的同时扩大感受野，多个可拓宽通道分解空洞卷积堆叠能够帮助网络获取更多不同尺度的特征信息。

第三，本发明由于利用全卷积网络组成的非对称编码器-解码器网络，减少不必要的网络结构，可在保留图像通道和空间特征信息的同时，显著减少网络参数量，提升训练速度。

附图说明

图1是本发明的实现流程图；

图2是本发明仿真使用的示例灰度遥感图像和示例彩色遥感图像；

图3是用本发明和基准方法对灰度遥感图像进行地物分类的仿真结果图像；

图4是用本发明和基准方法对彩色遥感图像进行地物分类的仿真结果图像。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步说明。

参照图1，本发明的具体实施步骤如下：

步骤1，获取遥感图像地物分类数据集R并进行数据预处理。

(1.1)从网站上下载实验所需的遥感图像地物分类数据集R；

遥感图像地物分类数据集包含背景类和其他4种不同地物类别包括建筑物、道路、水体、植被。数据集共有3张灰度图像，每张图像大小均在2000×2000左右；还有12张彩色图像，尺寸均为7400×4950。

(1.2)将以上数据有交叠地切割成512×512大小的图像块，交叠尺寸为128，并将得到的图像块随机划分成80％的训练集和20％的测试集，具体得到60张灰度训练集和15张灰度测试集以及2076张彩色训练集和519张彩色测试集。

(1.3)对训练集进行翻转、旋转、缩放的数据增强，并对道路、水体这些数量较少的地物类进行专门的扩充处理，即保留道路、水体类的像素邻域内的原图和标签不变，将其他区域的原图置255，标签置为背景类，得到扩充后的训练集。

步骤2，引入可拓宽通道分解空洞卷积，构建基于轻量化语义分割网络的遥感图像地物分类模型。

所述的可拓宽通道分解空洞卷积，包含13个可拓宽通道分解空洞卷积K1～K13，其中，K1～K5这五个可拓宽通道分解空洞卷积的结构相同，每个可拓宽通道分解空洞卷积均将其输入参数在通道维度上均分成两个分支，第一个分支依次经过3×1卷积、1×3卷积、空洞率为1的3×1空洞卷积、空洞率为1的1×3空洞卷积，得到一个卷积特征；第二个分支依次经过1×3卷积、3×1卷积、空洞率为1的1×3空洞卷积、空洞率为1的3×1空洞卷积，得到另一个卷积特征，将这两个卷积特征在通道维度上进行拼接并与输入参数求和，输出中间特征或特征图，其中K1、K2输出通道维度为32的中间特征，K3输出通道维度为C的特征图；K4输出通道维度为64的中间特征，K5输出通道维度为64的特征图。

K6～K11这六个可拓宽通道分解空洞卷积的结构相似，其均将输入参数在通道维度上均分成十个分支，第一个分支依次经过3×1卷积、1×3卷积、空洞率为d的3×1空洞卷积、空洞率为d的1×3空洞卷积，得到一个卷积特征；第二个分支依次经过1×3卷积、3×1卷积、空洞率为d的1×3空洞卷积、空洞率为d的3×1空洞卷积，得到另一个卷积特征；第3～10个分支均依次经过3×3卷积和空洞率为d的3×3空洞卷积得到其他八个卷积特征，将这八个卷积特征求和并与前两个卷积特征在通道维度上进行拼接，再与输入参数进行求和，输出通道维度为128的中间特征，其中K6的空洞率为1，K7的空洞率为2，K8的空洞率为5，K9的空洞率为9,K10的空洞率为2,K11的空洞率为5。

K12～K13这两个可拓宽通道分解空洞卷积的结构与K1相似，仅空洞率有所不同，其中K12的空洞率为9，输出通道维度为128的中间特征，K13的空洞率为17，输出通道维度为128的特征图，该特征图即为编码器特征F。

本步骤基于所述的可拓宽通道分解空洞卷积，构建基于轻量化语义分割网络的遥感图像地物分类模型的实现步骤如下：

(2.1)将步骤一中得到的训练遥感图像经过多个下采样和多个可拓宽通道分解空洞卷积，得到编码器特征F：

(2.1.1)输入图像I经过第一个下采样层D1执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为32的第一个特征图T1；

(2.1.2)第一个特征图T1依次经过K1～K3这三个可拓宽通道分解空洞卷积，得到通道维度为32的第二个特征图T2；

(2.1.2a)第一个特征图T1通过第一个可拓宽通道分解空洞卷积K1，在其两个分支上分别得到第一个卷积特征A1和第二个卷积特征A2，将A1和A2这两个卷积特征在通道维度上进行拼接并与T1求和，输出通道维度为32的第一中间特征Z1；

(2.1.2b)K1输出的中间特征Z1经过第二个可拓宽通道分解空洞卷积K2，在其两个分支上分别输出第三个卷积特征A3和第四个卷积特征A4，将这两个卷积特征A3和A4在通道维度上进行拼接并与第一个中间特征Z1求和，输出通道维度为32的第二中间特征Z2；

(2.1.2c)K2输出的中间特征Z2经过第三个可拓宽通道分解空洞卷积K3，在其两个分支上分别输出第五个卷积特征A5和第六个卷积特征A6，将这两个卷积特征A5和A6在通道维度上进行拼接并与第二个中间特征Z2求和，输出通道维度为32的第二个特征图T2。

(2.1.3)第二个特征图T2经过第二个下采样层D2执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为64的第三个特征图T3；

(2.1.4)第三个特征图T3依次经过K4、K5这两个可拓宽通道分解空洞卷积，得到通道维度为64的第四个特征图T4；

(2.1.4a)第三个特征图T3经过第四个可拓宽通道分解空洞卷积K4，在其两个分支上分别输出第七个卷积特征A7和第八个卷积特征A8，将这两个卷积特征A7和A8在通道维度上进行拼接并与T3求和，输出通道维度为64的第三中间特征Z3；

(2.1.4b)K4输出的中间特征Z3经过第五个可拓宽通道分解空洞卷积K5，在其两个分支上分别输出第九个卷积特征A9和第十个卷积特征A10，将这两个卷积特征A9和A10在通道维度上进行拼接并与Z3求和，输出通道维度为64的第四个特征图T4。

(2.1.5)第四个特征图T4经过第三个下采样层D3执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为128的第五个特征图T5；

(2.1.6)第五个特征图T5依次经过K6～K13这八个可拓宽通道分解空洞卷积，得到通道维度为128的第六个特征图T6，T6即为编码器特征F。

(2.1.6a)第五个特征图T5经过第六个可拓宽通道分解空洞卷积K6，在其十个分支上分别输出第11～20个卷积特征A11～A20，将A13～A20求和并与A11和A12在通道维度上进行拼接，再与T5求和，输出通道维度为128的第四中间特征Z4；

(2.1.6b)K6输出的中间特征Z4经过第七个可拓宽通道分解空洞卷积K7，在其十个分支上分别输出第21～30个卷积特征A21～A30，将A23～A30求和并与A21和A22在通道维度上进行拼接，再与Z4求和，输出通道维度为128的第五中间特征Z5；

(2.1.6c)K7输出的中间特征Z5经过第八个可拓宽通道分解空洞卷积K8，在其十个分支上分别输出第31～40个卷积特征A31～A40，将A33～A40求和并与A31和A32在通道维度上进行拼接，再与Z5求和，输出通道维度为128的第六中间特征Z6；

(2.1.6d)K8输出的中间特征Z6经过第九个可拓宽通道分解空洞卷积K9，在其十个分支上分别输出第41～50个卷积特征A41～A50，将A43～A50求和并与A41和A42在通道维度上进行拼接，再与Z6求和，输出通道维度为128的第七中间特征Z7；

(2.1.6e)K9输出的中间特征Z7经过第十个可拓宽通道分解空洞卷积K10，在其十个分支上分别输出第51～60个卷积特征A51～A60，将A53～A60求和并与A51和A52在通道维度上进行拼接，再与Z7求和，输出通道维度为128的第八中间特征Z8；

(2.1.6f)K10输出的中间特征Z8经过第十一个可拓宽通道分解空洞卷积K11，在其十个分支上分别输出第61～70个卷积特征A61～A70，将A63～A70求和并与A61和A62在通道维度上进行拼接，再与Z8求和，输出通道维度为128的第九中间特征Z9；

(2.1.6g)K11输出的中间特征Z9经过第十二个可拓宽通道分解空洞卷积K12，在其两个分支上分别输出71～72个卷积特征A71～A72，将这两个卷积特征A71和A72在通道维度上进行拼接并与Z9求和，输出通道维度为128的第十中间特征Z10；

(2.1.6h)K12输出的中间特征Z10经过第十三个可拓宽通道分解空洞卷积K13，在其两个分支上分别输出73～74个卷积特征A73～A74，将这两个卷积特征A73和A74在通道维度上进行拼接并与Z10求和，输出通道维度为128的第六个特征图T6，T6即为编码器特征F。

(2.2)用注意力金字塔网络APN作为解码器网络，将编码器特征F输入到该解码器网络中，得到三路特征图F1、F2、F3；

(2.2.1)编码器特征F依次经过三个注意力卷积模块Conv1、Conv2、Conv3，得到64×64×1的第一路特征图F1；

(2.2.1a)编码器特征F输入到第一个注意力卷积模块Conv1，通过一个步长为2的7×7卷积，得到第一个注意力卷积特征B1，B1通过一个步长为1的7×7卷积，得到第二个注意力卷积特征B2；

(2.2.1b)第一个注意力卷积特征B1输入到第二个注意力卷积模块Conv2，通过一个步长为2的5×5卷积，得到第三个注意力卷积特征B3，B3通过一个步长为1的5×5卷积，得到第四个注意力卷积特征B4；

(2.2.1c)第三个注意力卷积特征B3输入到第三个注意力卷积模块Conv3，通过一个步长为2的3×3卷积，得到第五个注意力卷积特征B5，B5通过一个步长为1的3×3卷积，得到第六个注意力卷积特征B6；

(2.2.1d)第六个注意力卷积特征B6经过上采样操作，使得其尺寸与第四个注意力卷积特征B4的尺寸一致，再与B4求和后得到第7个注意力卷积特征B7；B7经过上采样操作，使得其尺寸与第二个注意力卷积特征B2的尺寸一致，再与B2求和后得到第8个注意力卷积特征B8；B8再经过上采样操作得到尺寸为64×64×1的第一路特征图F1，该过程可由以下式子表示：

F1＝Up(Up(Up(B6)+B4)+B2)

其中Up(·)表示上采样操作。

(2.2.2)编码器特征F经过一个步长为1的1×1卷积层，得到64×64×5的第二路特征图F2；

(2.2.3)编码器特征F依次经过一个全局平均池化层、一个步长为1的1×1卷积层及上采样操作后，得到64×64×5的第三路特征图F3。

(2.3)根据三路特征图F1、F2、F3，通过计算得到预测图Q；

(2.3.1)将第一路特征图F1与第二路特征图F2的五个通道分别点乘，并在通道维度上进行拼接，得到F1与F2的融合结果J；

(2.3.2)将(2.3.1)中得到的融合结果J与第三路特征图F3进行求和与上采样操作，得到预测图Q，该过程可用下式表示：

Q＝Up(J+F3)，

其中Up(·)表示上采样操作。

步骤3，针对标签图地物边缘标记模糊的特点，设计轻量化语义分割网络的损失函数L。

(3.1)将原标签图进行标签平滑和高斯滤波处理得到新的标签图P；

(3.1.1)将原标签图由1通道以独热编码的形式映射为5通道标签图P1，每个通道对应一类地物，若原图某位置像素为第i类，则P1对应像素在第i个通道值为1，其它通道的该位置值为0，其中i＝0,1,2,3,4；

(3.1.2)对P1进行标签平滑，即将P1中值为1的位置重新赋值为0.9，值为0的位置重新赋值为(1-0.9)/(5-1)＝0.025，得到平滑后的标签图P2；

(3.1.3)对P2使用3×3的滑动窗口进行高斯滤波，其标准差由opencv工具包中的cv2.GaussianBlur()函数根据3×3的高斯模板的尺寸来指定，经过此操作得到高斯滤波后的标签图P。

(3.2)根据标签图P和预测图Q的信息熵差值，构造损失函数L；

(3.2.1)对(2.3)中得到的Q进行softmax运算和对数运算处理，得到Q上每个像素的分类结果概率值Q(x_i)；

(3.2.2)计算预测图Q与标签图P之间的信息熵差值：

其中KLdiv_loss(Q,P)为KL散度损失，表示用概率分布Q来拟合真实分布P时产生的信息损失，n表示输入图像的总像素数，x_i表示第i个像素点；

(3.2.3)用(3.2.2)中的信息熵差值KLdiv_loss(Q,P)作为本模型的损失函数L：

L＝KLdiv_loss(Q,P)。

步骤4，对步骤2构建的轻量化遥感图像地物分类模型进行训练：

(4.1)设置训练参数：

在本实例中，设初始学习率baselr为0.0005，当前学习率计算公式为lr＝baselr×(1-iter/maxiter)^0.9，其中lr是当前学习率，iter是当前迭代轮数，maxiter是最大迭代轮数，优化器使用Adam，训练轮数设为300，随机初始化模型参数；

(4.2)将步骤1中的训练样本输入到构建的轻量化遥感图像地物分类模型中，并使用优化器Adam优化步骤3中的整体损失函数L，更新轻量化遥感图像地物分类模型的权重参数，当训练轮数达到300时，得到训练好的轻量化遥感图像地物分类模型。

步骤5，将步骤1中的测试样本输入到训练好的轻量化遥感图像地物分类模型中，预测输出测试样本图像中各地物分类的概率图，对概率图进行赋值上色得到最终的地物分类结果图。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件:

仿真实验采用已公开的“天智杯”人工智能测绘地理与气象水文数据智能化处理领域挑战赛科目二训练集的光学遥感图像数据，空间分辨率范围在1m～10m之间，彩色图像包含R、G、B三个波段，图像大小为7400×4950，灰度图像包含1个波段，图像大小分别为1996×1997、2000×2009、2006×2006，图像实例如图2所示。

仿真所用的处理器为

Xeon(R)CPU E5-2678 v3@2.50GHz×48，内存为128G，GPU为内存11G的GeForce GTX 1080Ti，在Ubuntu16.04系统上，PyTorch框架下使用Python3.6语言进行仿真。

2.仿真内容与结果：

用本发明对图2所示的灰度和彩色遥感图像进行地物分类。

仿真1：使用本发明和现有的基准方法对图2所示的灰度遥感图像进行地物分类的仿真，预测图结果如图3所示，其中图3(a)为本发明结果，图3(b)为基准方法结果。

从图3中可以看出，本发明在灰度遥感图像中对建筑、道路、水体、植被及背景类的预测结果较为准确，对各地物的预测要优于基准方法，尤其是避免了基准方法将灰度遥感图像中田埂错分成道路类的情况，同时本发明预测图地物分类的边缘更加平滑，噪点更少。

计算本发明和基准方法在图2所示的灰度遥感图像上各地物的交叠率IOU及平均交叠率mIOU指标，结果如表1所示。

表1本发明和基准方法在灰度遥感图像上各地物的IOU及mIOU

	背景IOU	建筑IOU	道路IOU	水体IOU	植被IOU	mIOU
							本发明	0.9404	0.8111	0.4763	0.8815	0.6367	0.7492
基准方法	0.9292	0.7761	0.3543	0.8701	0.6207	0.7101

从表1可以看出，不论是对水体和建筑这种占比相对较大的地物还是对道路这种较细的地物抑或是植被这种占比相对较小的地物，本发明都能够取得比基准方法高的IOU，尤其是道路类的IOU提升了12.2％；与之相应的，所有地物的平均交叠率mIOU也实现了近4％的提高。

仿真2：使用本发明和现有的基准方法对彩色遥感图像进行地物分类的仿真，预测图结果如图4所示，其中图4(a)为本发明结果，图4(b)为基准方法结果。

从图4中可以看出，本发明在彩色遥感图像中对建筑、道路、水体、植被及背景类的预测结果非常优良，能够较好地预测出彩色遥感图像中的各地物的分布情况，对彩色遥感图像中的建筑、植被和水体的边缘平滑、孔洞较少，道路预测连续不中断。错分、漏分以及噪点问题均优于基准算法。

计算本发明和基准方法在图2所示的彩色遥感图像上各地物的IOU及mIOU指标，结果如表2所示。

表2本发明和基准方法在彩色遥感图像上各地物的IOU及mIOU

	背景IOU	建筑IOU	道路IOU	水体IOU	植被IOU	mIOU
							本发明	0.7960	0.7763	0.6598	0.9012	0.8874	0.8041
基准方法	0.7336	0.7615	0.5912	0.8729	0.8478	0.7614

从表2可以看出，在各个地物的IOU指标上本发明都取得了优于基准方法的结果，其中道路类的IOU提升了近7％，其他各类的提升也均在1.4％以上，所有地物的平均交叠率mIOU也实现了超过4％的提升。

通过以上两个仿真实验，可知本发明使用的可拓宽通道分解空洞卷积可以获取更多图像通道特征，并能够在减小网络参数量的同时扩大感受野，因此对于不同尺度的地物类型均能够进行较好的识别，地物边缘更加平滑，噪点更少。

将本发明和现有的基准方法在模型参数量上进行比较，结果如表3。

表3本发明和基准方法的网络参数量

方法	参数量
		本发明	1712657
基准方法	7764197

从表3可以看出，本发明的模型参数要远少于基准方法，提高了模型的训练速度。

综上，本发明利用一种引入可拓宽通道分解空洞卷积的基于轻量化语义分割网络的遥感图像地物分类模型,与现有方法比较能够保留和恢复更多遥感图像空间和通道信息、保留地物边缘、减小模型参数，对地物分类快速且准确。

Claims

1.一种基于轻量化语义分割网络的遥感图像地物分类方法，其特征在于，包括如下：

(1)将输入的遥感图像划分为训练样本和测试样本：

对输入的遥感数据集进行可交叠地切图，划分为N个大小为H×H的图像块，并从N个图像块中随机选取80％的图像块作为训练样本，其余的图像块作为测试样本，N≥60，H≥500；

(2c)根据三路特征图F1、F2、F3得到预测图Q；

(3b)根据标签图P和预测图Q的信息熵差值，构造损失函数L；

(4)对(2)构建的轻量化遥感图像地物分类模型进行训练：

2.根据权利要求1所述的方法，其特征在于，(2a)中所述的将输入遥感图像经过多个下采样和多个可拓宽通道分解空洞卷积得到编码器特征F，其实现如下：

(2a1)输入图像I经过第一个下采样层D1执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为C>30的第一个特征图T1；

(2a2)第一个特征图T1依次经过K1～K3这三个可拓宽通道分解空洞卷积，得到通道维度为C的第二个特征图T2；

(2a3)第二个特征图T2经过第二个下采样层D2执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为2C的第三个特征图T3；

(2a4)第三个特征图T3依次经过K4、K5这两个可拓宽通道分解空洞卷积，得到通道维度为2C的第四个特征图T4；

(2a5)第四个特征图T4经过第三个下采样层D3执行步长均为2的3×3卷积和2×2最大池化操作，并将这两个操作得到的特征图进行通道维度上的拼接，得到通道维度为4C的第五个特征图T5；

(2a6)第五个特征图T5依次经过K6～K13这八个可拓宽通道分解空洞卷积，得到通道维度为4C的第六个特征图T6，T6即为编码器特征F。

3.根据权利要求2所述的方法，其特征在于，其中所述K1～K5这五个可拓宽通道分解空洞卷积的结构相同，每个可拓宽通道分解空洞卷积均将其输入参数在通道维度上均分成两个分支，第一个分支依次经过3×1卷积、1×3卷积、空洞率为1的3×1空洞卷积、空洞率为1的1×3空洞卷积，得到一个卷积特征；第二个分支依次经过1×3卷积、3×1卷积、空洞率为1的1×3空洞卷积、空洞率为1的3×1空洞卷积，得到另一个卷积特征，将这两个卷积特征在通道维度上进行拼接并与输入参数求和，输出中间特征或特征图，其中K1、K2输出通道维度为C的中间特征，K3输出通道维度为C的特征图；K4输出通道维度为2C的中间特征，K5输出通道维度为2C的特征图。

4.根据权利要求2所述的方法，其特征在于，其中所述K6～K11这六个可拓宽通道分解空洞卷积的结构相似，其均将输入参数在通道维度上均分成十个分支，第一个分支依次经过3×1卷积、1×3卷积、空洞率为d的3×1空洞卷积、空洞率为d的1×3空洞卷积，得到一个卷积特征；第二个分支依次经过1×3卷积、3×1卷积、空洞率为d的1×3空洞卷积、空洞率为d的3×1空洞卷积，得到另一个卷积特征；第3～10个分支均依次经过3×3卷积和空洞率为d的3×3空洞卷积得到其他八个卷积特征，将这八个卷积特征求和并与前两个卷积特征在通道维度上进行拼接，再与输入参数进行求和，输出通道维度为4C的中间特征，其中K6的空洞率为1，K7的空洞率为2，K8的空洞率为5，K9的空洞率为9,K10的空洞率为2,K11的空洞率为5。

5.根据权利要求2所述的方法，其特征在于，其中所述K12～K13这两个可拓宽通道分解空洞卷积的结构与K1相似，仅空洞率有所不同，其中K12的空洞率为9，输出通道维度为4C的中间特征，K13的空洞率为17，输出通道维度为4C的特征图，该特征图即为编码器特征F。

6.根据权利要求2所述的方法，其特征在于，(2a2)中第一个特征图T1依次经过K1～K3这三个可拓宽通道分解空洞卷积，得到通道维度为C的第二个特征图T2，其实现如下：

(2a2.1)第一个特征图T1通过第一个可拓宽通道分解空洞卷积K1，在其两个分支上分别得到第一个卷积特征A1和第二个卷积特征A2，将A1和A2这两个卷积特征在通道维度上进行拼接并与T1求和，输出通道维度为C的第一中间特征Z1；

(2a2.2)K1输出的中间特征Z1经过第二个可拓宽通道分解空洞卷积K2，在其两个分支上分别输出第三个卷积特征A3和第四个卷积特征A4，将这两个卷积特征A3和A4在通道维度上进行拼接并与第一中间特征Z1求和，输出通道维度为C的第二中间特征Z2；

(2a2.3)K2输出的中间特征Z2经过第三个可拓宽通道分解空洞卷积K3，在其两个分支上分别输出第五个卷积特征A5和第六个卷积特征A6，将这两个卷积特征A5和A6在通道维度上进行拼接并与第二中间特征Z2求和，输出通道维度为C的第二个特征图T2。

7.根据权利要求2所述的方法，其特征在于，(2a4)中第三个特征图T3依次经过K4、K5这两个可拓宽通道分解空洞卷积，得到通道维度为2C的第四个特征图T4，其实现如下：

(2a4.1)第三个特征图T3经过第四个可拓宽通道分解空洞卷积K4，在其两个分支上分别输出第七个卷积特征A7和第八个卷积特征A8，将这两个卷积特征A7和A8在通道维度上进行拼接并与T3求和，输出通道维度为2C的第三中间特征Z3；

(2a4.2)K4输出的中间特征Z3经过第五个可拓宽通道分解空洞卷积K5，在其两个分支上分别输出第九个卷积特征A9和第十个卷积特征A10，将这两个卷积特征A9和A10在通道维度上进行拼接并与Z3求和，输出通道维度为2C的第四个特征图T4。

8.根据权利要求2所述的方法，其特征在于，(2a6)中第五个特征图T5依次经过K6～K13这八个可拓宽通道分解空洞卷积，得到通道维度为4C的第六个特征图T6，其实现如下：

(2a6.1)第五个特征图T5经过第六个可拓宽通道分解空洞卷积K6，在其十个分支上分别输出第11～20个卷积特征A11～A20，将A13～A20求和并与A11和A12在通道维度上进行拼接，再与T5求和，输出通道维度为4C的第四中间特征Z4；

(2a6.2)K6输出的中间特征Z4经过第七个可拓宽通道分解空洞卷积K7，在其十个分支上分别输出第21～30个卷积特征A21～A30，将A23～A30求和并与A21和A22在通道维度上进行拼接，再与Z4求和，输出通道维度为4C的第五中间特征Z5；

(2a6.3)K7输出的中间特征Z5经过第八个可拓宽通道分解空洞卷积K8，在其十个分支上分别输出第31～40个卷积特征A31～A40，将A33～A40求和并与A31和A32在通道维度上进行拼接，再与Z5求和，输出通道维度为4C的第六中间特征Z6；

(2a6.4)K8输出的中间特征Z6经过第九个可拓宽通道分解空洞卷积K9，在其十个分支上分别输出第41～50个卷积特征A41～A50，将A43～A50求和并与A41和A42在通道维度上进行拼接，再与Z6求和，输出通道维度为4C的第七中间特征Z7；

(2a6.5)K9输出的中间特征Z7经过第十个可拓宽通道分解空洞卷积K10，在其十个分支上分别输出第51～60个卷积特征A51～A60，将A53～A60求和并与A51和A52在通道维度上进行拼接，再与Z7求和，输出通道维度为4C的第八中间特征Z8；

(2a6.6)K10输出的中间特征Z8经过第十一个可拓宽通道分解空洞卷积K11，在其十个分支上分别输出第61～70个卷积特征A61～A70，将A63～A70求和并与A61和A62在通道维度上进行拼接，再与Z8求和，输出通道维度为4C的第九中间特征Z9；

(2a6.7)K11输出的中间特征Z9经过第十二个可拓宽通道分解空洞卷积K12，在其两个分支上分别输出71～72个卷积特征A71～A72，将这两个卷积特征A71和A72在通道维度上进行拼接并与Z9求和，输出通道维度为4C的第十中间特征Z10；

(2a6.8)K12输出的中间特征Z10经过第十三个可拓宽通道分解空洞卷积K13，在其两个分支上分别输出73～74个卷积特征A73～A74，将这两个卷积特征A73和A74在通道维度上进行拼接并与Z10求和，输出通道维度为4C的第六个特征图T6，T6即为编码器特征F。

9.根据权利要求1所述的方法，其特征在于，(2b)中用注意力金字塔网络APN作为解码器网络，将编码器特征F输入到该解码器网络中，得到三路特征图F1、F2、F3,其实现如下：

(2b1)编码器特征F依次经过三个注意力卷积模块Conv1、Conv2、Conv3，得到(H/8)×(H/8)×1的第一路特征图F1；

(2b2)编码器特征F经过一个步长为1的1×1卷积层，得到(H/8)×(H/8)×5的第二路特征图F2；

(2b3)编码器特征F依次经过一个全局平均池化层、一个步长为1的1×1卷积层及上采样操作后，得到(H/8)×(H/8)×5的第三路特征图F3。

10.根据权利要求9所述的方法，其特征在于，(2b1)中编码器特征F依次经过三个注意力卷积模块Conv1、Conv2、Conv3，得到(H/8)×(H/8)×1的第一路特征图F1，其实现如下：

(2b1.1)编码器特征F输入到第一个注意力卷积模块Conv1，通过一个步长为2的7×7卷积，得到第一个注意力卷积特征B1，B1通过一个步长为1的7×7卷积，得到第二个注意力卷积特征B2；

(2b1.2)第一个注意力卷积特征B1输入到第二个注意力卷积模块Conv2，通过一个步长为2的5×5卷积，得到第三个注意力卷积特征B3，B3通过一个步长为1的5×5卷积，得到第四个注意力卷积特征B4；

(2b1.3)第三个注意力卷积特征B3输入到第三个注意力卷积模块Conv3，通过一个步长为2的3×3卷积，得到第五个注意力卷积特征B5，B5通过一个步长为1的3×3卷积，得到第六个注意力卷积特征B6；

(2b1.4)第六个注意力卷积特征B6经过上采样操作，使得其尺寸与第四个注意力卷积特征B4的尺寸一致，再与B4求和后得到第7个注意力卷积特征B7；B7经过上采样操作，使得其尺寸与第二个注意力卷积特征B2的尺寸一致，再与B2求和后得到第8个注意力卷积特征B8；B8再经过上采样操作得到尺寸为(H/8)×(H/8)×1的第一路特征图F1，该过程可由以下式子表示：

F1＝Up(Up(Up(B6)+B4)+B2)

其中Up(·)表示上采样操作。

11.根据权利要求1所述的方法，其特征在于，(2c)根据三路特征图F1、F2、F3得到预测图Q，其实现如下：

(2c1)将第一路特征图F1与第二路特征图F2的五个通道分别点乘，并在通道维度上进行拼接，得到F1与F2的融合结果J；

(2c2)将(2c1)中得到的融合结果J与第三路特征图F3进行求和与上采样操作，得到预测图Q：

Q＝Up(J+F3)，

其中Up(·)表示上采样操作。

12.根据权利要求1所述的方法，其特征在于，(3a)将原标签图进行标签平滑和高斯滤波处理，得到新的标签图P，其实现如下：

(3a1)将原标签图由1通道以独热编码的形式映射为5通道标签图P1，每个通道对应一类地物，若原图某位置像素为第i类，则P1对应像素在第i个通道值为1，其它通道的该位置值为0，其中i＝0,1,2,3,4；

(3a2)对P1进行标签平滑，即将P1中值为1的位置重新赋值为0.9，值为0的位置重新赋值为(1-0.9)/(5-1)＝0.025，得到平滑后的标签图P2；

(3a3)对P2使用3×3的滑动窗口进行高斯滤波，其标准差由opencv工具包中的cv2.GaussianBlur()函数根据3×3的高斯模板的尺寸来指定，经过此操作得到高斯滤波后的标签图P。

13.根据权利要求1所述的方法，其特征在于，(3b)中根据标签图P和预测图Q的信息熵差值，构造损失函数L，其实现如下：

(3b1)对(2c)中得到的Q进行softmax运算和对数运算处理，得到Q上每个像素的分类结果概率值Q(x_i)；

(3b2)计算预测图Q与标签图P之间的信息熵差值：

(3b3)用(3b2)中的信息熵差值KLdiv_loss(Q,P)作为本模型的损失函数L：

L＝KLdiv_loss(Q,P)。