CN111797779A

CN111797779A - 基于区域注意力多尺度特征融合的遥感图像语义分割方法

Info

Publication number: CN111797779A
Application number: CN202010651410.8A
Authority: CN
Inventors: 闫浩文; 芦万祯; 吴小所; 蔡佳丽
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-20

Abstract

本发明提供了一种基于区域注意力多尺度特征融合的遥感图像语义分割方法，包括以下步骤：S1、构建针对遥感图像语义分割网络的网络模型；S2、构建训练数据集，并对收集训练用的数据集进行预处理；S3、将训练用的数据集输入网络模型进行训练，获得训练参数后并进行预测结果。本发明引入了图像级联网络的思想，大大减少了模型参数量。同时利用注意力机制优化编码特征与解码特征，构造出区域注意力模块、多尺度组融合模块，提取和融合不同尺度的特征图，并使用多尺度的语义标签和边界标签指导训练，在模型的参数量仅有8.4M的情况下，有效提高了模型性能。

Description

基于区域注意力多尺度特征融合的遥感图像语义分割方法

技术领域

本发明涉及到图像处理技术领域，尤其涉及到一种基于区域注意力多尺度特征融合的遥感图像语义分割方法。

背景技术

随着科学技术的进步，遥感卫星技术得到了长远的发展，遥感图像的语义分割研究也变的火热起来，但是遥感图像具有成像复杂、信息冗余、种类繁多等特点，因此，如何提高遥感图像的分割精度成为众多研究者关注的一个重点。传统方法的分类过程可分为两个步骤：特征提取和目标分类。即利用特征提取算法提取目标特征，然后利用分类器对目标进行分类。常见的特征提取的方法一般有梯度直方图(Histogram of oriented Gradient)、尺度不变特征变换(Scale-Invariant Feature Transform)、稀疏表示。梯度直方图(HOG)能较好的提取图像局部的梯度特征，但其仍然有着对噪声敏感、计算复杂度高的缺点。尺度不变特征变换(SIFT)提取的图像局部特征具有尺度缩放、旋转和亮度变化不变性，且对噪声有一定程度的稳定性，但SIFT算法无法准确的提取光滑目标的特征点。稀疏表示则在提高准确率的同时可对遥感图像目标进行定位，被应用在很多图像分类的任务中。常见的目标分类方法包括支持向量机(support vector machines)、决策树(decision tree)、随机森林等方法(random forest)。支持向量机(SVM)的目标是寻找对特征空间划分的最优超平面，使得正样本与负样本的隔离边界最大化，不仅剔除了大量的冗余样本，而且又有较好的鲁棒性，但是SVM对多分类的问题仍然存在着较大的困难。决策树(RF)是由多颗决策树组成的整体分类器，通过每颗决策树来投票决定每个像素的分类结果，由于随机性的植入，使得RF具有不容易过拟合，抗噪声等优点。尽管如此，传统算法仍面临着样本空间局限、繁琐费时、非线性能力差的问题。因此，寻找高效且快速遥感图像分割算法是当下亟待解决的问题。

发明内容

本发明的目的是为了克服现有技术的不足，提供了一种基于区域注意力多尺度特征融合的遥感图像语义分割方法。

本发明是通过以下技术方案实现：

本发明提供了一种基于区域注意力多尺度特征融合的遥感图像语义分割方法，该基于区域注意力多尺度特征融合的遥感图像语义分割方法包括以下步骤：

S1、构建针对遥感图像语义分割网络的网络模型；该步骤S1具体包括以下步骤：

S11、选取遥感图像语义分割的主干网络；

S12、采用增强的GCN模块使选取的主干网络得到进一步的改进；

S13、提出一种区域注意力模块，该区域注意力模块可以将不同的权重分配给特征层中的不同区域，主要用于自适应融合具有详细位置信息的低级特征图和具有抽象全局信息的高级特征图；

S14、设计一种多尺度组融合模块，该多尺度组融合模块充当编码器和解码器之间的桥梁，用于融合不同接受领域的特征为具有丰富语义信息的特征；

S2、构建训练数据集，并对收集训练用的数据集进行预处理；该步骤S2具体包括以下步骤：

S21、收集训练用的遥感图像构建训练用的数据集，对数据集的标签进行预处理，即先转化为最大值为类别数的索引图，再将索引图进行one-hot编码；

S22、将收集训练用的遥感图像随机裁剪为固定尺寸的大小；

S23、在收集训练用的遥感图像上进行镜像、旋转、亮度调节等增强处理；

S3、将训练用的数据集输入网络模型进行训练，获得训练参数后并进行预测结果；该步骤S3具体包括以下步骤：

S31、将训练用的数据集输入语义分割网络，得到每张遥感图像的语义分割结果；

S32、使用平均交并比MeanIOU、得分F1、像素精度PA作为评价指标来评价语义分割网络的性能。

优选的，步骤S11包括以下步骤：

S111、选择输入的主干网络为深度残差网络ResNet50；

S112、使用三个3×3卷积层来取代深度残差网络第一阶段的7×7的卷积层，并取消block4中的池化层采用膨胀率为8的空洞卷积来补充取消下采样后的感受野和非线性；

S113、深度残差网络ResNet50最后的block5输出的特征图增加辅助损失，并将其权重设置为0.4。

优选的，所述辅助损失的函数L_pri为：

其中，M表示类别数，为one-hot向量，即元素只取0、1，若与样本类别相同则取1，否则取0。

优选的，所述辅助损失为设定损失的一部分，所述设定损失为包括主损失和所述辅助损失的加权和，所述设定损失的函数为：

L_total＝αL_pri+βL_aux；

其中，α、β为平衡所述主损失和所述辅助损失两个损失的超参数，设定为α＝1，β＝0.4。

优选的，步骤S12包括以下步骤：

S121、采用非对称1×k+k×1、1×s+s×1卷积的组合，该组合具有与特征图中k×k卷积一样大的密集区域；

S122、设置第一组非对称卷积的尺寸为1×11+11×1，第二组非对称卷积的尺寸为1×9+9×1；

S123、将第一组非对称1×11+11×1的两组特征图相加；

S124、将第二组非对称1×9+9×1的两组特征图相加；

S125、融合第一组和第二组两组卷积的输出的特征。

优选的，步骤S13包括以下步骤：

S131、将增强的GCN模块的输出特征图输入提出的区域注意力模块；

S132、区域注意力模块将自适应地为输入特征图的每一个通道的不同区域分配权重；

S133、输入的特征图和区域注意力模块分配的权重相乘，根据贡献的大小为每个特征区域的分配不同的权重；

S134、输出每个区域都有不同权重的特征图。

优选的，步骤S132包括以下步骤：

S1321、将输入W×H×C的特征图进行平均池化，池化的大小和步长决定区域注意力模块分配区域权重的面积大小；

S1322、将池化后下采样的特征层进行双线性插值进行上采样，上采样后的特征图与输入特征图大小一致；

S1323、设计一个重采样模块，该重采样模块将输入的特征图分三路进行1×1、4×4、8×8的池化，然后将三路池化后的特征展开并拼接为S×C的特征图，其中,S＝∑_n∈{1,4,8}n²；

S1324、将上采样后的特征层分为两个支路进行1×1的卷积，第一个支路将特征层转化为N×C的特征图，其中N等于W×H；第二个支路通过重采样模块将特征层转化为C×S的特征图；

S1325、将两个支路的特征层相乘得到一个尺寸为N×S的特征图；

S1326、将尺寸为N×S的特征图通过激活函数softmax得到基本的被分配权重矩阵；

S1327、输入的W×H×C特征图通过重采样模块将特征层转化为C×S的特征图，并将其转化为S×C的特征图；

S1328、将得到的N×S权重分布矩阵张量与S×C的特征图相乘得到N×C的特征图，最后还原成和输入W×H×C的特征图一样尺度的特征图，得到分配好权重的特征。

优选的，步骤S14包括以下步骤：

S141、将编码器输出的32×32特征图输入多尺度组融合模块；

S142、将输入的特征图按照3：1的比例进行分组；

S143、将分组后的3/4的特征图进行膨胀率为2×2的卷积操作，保留剩下的1/4的特征图；

S144、将进行了膨胀率为2×2的卷积操作的特征图按照2：1的比例进行分组；

S145、将分组后的2/4的特征图进行膨胀率为4×4的卷积操作，保留剩下的1/4的特征图；

S146、将进行了膨胀率为4×4的卷积操作的特征图按照1：1的比例进行分组；

S147、将分组后的1/4的特征图进行膨胀率为8×8的卷积操作，保留卷积后的两组1/4的特征图；

S148、分别融合剩下4组的1/4的特征图，并作为最终的输出特征图进行输出。

优选的，评估使用的平均交并比MeanIOU、得分F1、像素精度PA的公式分别为：

其中，设TP为真正样本数，TN为真负样本数，FP为假正样本数，FN为假负样本数。

在上述实施例中，本发明的主要创新点如下：

(1)受全球卷积网络(GCN)的启发，GCN模块的结构得到了进一步改进。增强的GCN使用两组大小不同的非对称卷积核，而不是与GCN大小相同的非对称卷积核。这种改进的好处是，它不仅可以增加特征层的接受范围，而且可以带来不同的上下文信息。

(2)本发明提出了一种区域注意力模块(RAM)，可以将不同的权重分配给特征层中的不同区域，而不是在每个阶段(级别)更改特征的权重，例如通道注意。RAM主要用于自适应融合具有详细位置信息的低级特征图和具有抽象全局信息的高级特征图。

(3)提供了一种特定的特征融合策略，并设计了一种新的架构，称为多尺度组融合模块(MGFM)，用于融合不同接受领域的特征。MGFM充当编码器和解码器之间的桥梁，并包括四个路径，这些路径以膨胀卷积的不同扩展速率同时提取特征，之后，将来自四个路径的特征融合为具有丰富语义信息的特征。

附图说明

图1是本发明实施例提供的基于区域注意力多尺度特征融合的遥感图像语义分割方法的架构图；

图2是本发明实施例提供的多尺度分组融合模块的结构图；

图3是本发明实施例提供的重采样模块的结构图；

图4是本发明实施例提供的区域注意力模块的结构图；

图5是本发明实施例提供的增强的GCN模块的结构图；

图6、7是在两个不同数据集上与其他流行网络对比的视觉效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解本发明实施例提供的基于区域注意力多尺度特征融合的遥感图像语义分割方法，下面结合附图及具体的实施例对其进行详细说明。

请参考图1，图1是本发明实施例提供的基于区域注意力多尺度特征融合的遥感图像语义分割方法的架构图。

如图1所示，该基于区域注意力多尺度特征融合的遥感图像语义分割方法包括如下步骤：

第一步：S1、构建针对遥感图像语义分割网络的网络模型。该步骤S1具体包括以下步骤：

S11、选取遥感图像语义分割的主干网络；该主干网络为深度残差网络ResNet50；

S12、采用增强的GCN模块使选取的主干网络得到进一步的改进；如图5所示，增强的GCN模块使用两组大小不同的非对称卷积核；

S13、提出一种区域注意力模块(RAM)，该区域注意力模块如图4所示，可以将不同的权重分配给特征层中的不同区域，例如通道注意，主要用于自适应融合具有详细位置信息的低级特征图和具有抽象全局信息的高级特征图；

S14、设计一种多尺度组融合模块(MGFM)，该多尺度组融合模块如图2所示，充当编码器和解码器之间的桥梁，用于融合不同接受领域的特征为具有丰富语义信息的特征。

上述语义分割网络以ResNet50为骨干网络，分别在block2、block3和block4采用增强的GCN模块获得了更大的接受野与特征多样性，然后把得到的特征输入到了区域注意力模块凭借贡献度获得权重的大小。多尺度组融合模块充当编码器和解码器之间的桥梁，并包括四个路径，这些路径以膨胀卷积的不同扩展速率同时提取特征，之后，将来自四个路径的特征融合为具有丰富语义信息的特征，使得最后特征含有丰富的上下文信息，并且在感受野最大的块、每个点基本覆盖了编码器输出的特征图大小，给网络结构带来了很大的优化。

在本实施例中，步骤S11包括以下步骤：

S111、选择输入的主干网络为深度残差网络ResNet50；

所述辅助损失的函数L_pri为：

所述辅助损失为设定损失的一部分，所述设定损失为包括主损失和所述辅助损失的加权和，所述设定损失的函数为：

L_total＝αL_pri+βL_aux；

在本实施例中，步骤S12包括以下步骤：

S123、将第一组非对称1×11+11×1的两组特征图相加；

S124、将第二组非对称1×9+9×1的两组特征图相加；

S125、融合第一组和第二组两组卷积的输出的特征。

优选的，步骤S13包括以下步骤：

S134、输出每个区域都有不同权重的特征图。

进一步的，步骤S132包括以下步骤：

S1323、设计一个重采样模块，该重采样模块如图3所示，将输入的特征图分三路进行1×1、4×4、8×8的池化，然后将三路池化后的特征展开并拼接为S×C的特征图，其中,S＝∑_n∈{1,4,8}n²；

在本实施例中，步骤S14包括以下步骤：

S141、将编码器输出的32×32特征图输入多尺度组融合模块；

S142、将输入的特征图按照3：1的比例进行分组；

第二步：S2、构建训练数据集，并对收集训练用的数据集进行预处理。该步骤S2具体包括以下步骤：

S22、将收集训练用的遥感图像随机裁剪为固定尺寸的大小；

S23、在收集训练用的遥感图像上进行镜像、旋转、亮度调节等增强处理。

上述训练用的数据集可以包括海量公开的遥感图像。

上述步骤S21中，波茨坦(Potsdam)数据集包含38个块(6000×6000像素)，地面采样距离为5厘米。每个块均由从较大的TOP(true orthophoto)中提取的真实正射影像(TOP)组成，TOP是TIFF文件，位于不同的通道组成中，其中每个通道的光谱分辨率为8位：IRRG具有3个通道(IR-RG)，具有3个通道的RGB(RGB)和具有4个通道的RGBIR(RGB-IR)。在我们的实验中，将可用数据的十六个块随机分为包含10张图片的训练数据和6张图片的验证数据。考虑到分辨率太高的图像是训练的缺点，我们采用最简单的方法将大图像裁剪为512×512色块，以使CNN能够进行批量训练并节省计算量，其中1500个块用作训练数据，其他块用于验证建议的模块。

上述步骤S21中，CCF数据集中有四张高分辨率的图像：两张分辨率为7969×7939，一张图像分辨率为5664×5142，另一张图像分辨率为4011×2470。为方便起见，对这些图片进行与Potsdam设置相同的处理，将这些高分辨率图像及其对应的地面真实情况随机切成尺寸为512×512的较小块。在我们的实验中，我们使用其中的2390个块作为训练数据，其中783个作为验证数据。

第三步：S3、将训练用的数据集输入网络模型进行训练，获得训练参数后并进行预测结果。该步骤S3具体包括以下步骤：

在此需要说明的是，评估使用的平均交并比MeanIOU、得分F1、像素精度PA的公式分别为：

在训练过程中，添加了一些训练的细节，该训练的细节具体如下：

采用软件环境基于名为“Keras”的深度学习框架，该框架是从Tensorflow和Theano扩展而来的；

在配备Intel Core i7-9750H(12M缓存，4.50GHz)，32GB内存(RAM)，NvidiaGeForce RTX 2080Ti(11GB)的服务器上训练了网络模型，花了28个小时来训练500个批次；

在ImageNet上对ResNet-50预训练，并删除“Block4”的下采样操作；

采用Adam优化器[40]来优化我们的网络，其中每个数据集的初始学习率设置为0.001。

其中，学习率根据“poly”学习率策略衰减，其中学习率设置为：

结果分析如下：

在Potsdam数据集上的实验揭示了在平均IOU方面我们网络结构与其他现有技术之间的比较有着较好的分割效果。下表报告了我们所有提出的策略和四个比较结构的模型的性能。与通过比较方法(U-Net，SegNet，DeeplabV3和GCN)获得的平均值相比，Mean IoU的增加显而易见。平均IoU分别增加了12.33％，10.65％，5.18％和4.11％，尤其是在“树”类和“建筑”类中。图6显示了DCED50-M-G-R和其他模型的局部语义分割结果的直观比较。DCED50-M-G-R在所有类别中的表现均优于其他模型，尤其是在“tree”类别和“building”类别中。通常，这些结果证明DCED50-M-G-R可以有效地提高分割性能，并且比其他模型表现更好。

在CCF上的实验揭示了在平均IOU方面我们网络结构与其他现有技术之间的比较有着较好的分割效果。下表报告了我们所有提出的策略和四个比较结构的模型的性能。与比较方法(U-Net，SegNet，DeeplabV3和GCN)相比，Mean IoU的增加是明显的，尤其是IOU分别增加了21.16％，14.85％，6.21％和4.95％。在“道路”，“背景”和“建筑”等类别中可以看到明显的改善。图7显示了DCED50-M-G-R和其他模型的局部语义分割结果的直观比较。DCED50-M-G-R在所有类别中的性能均优于其他模型，尤其是在“公路”和“建筑”类别中。通常，结果证明DCED50-M-G-R可以有效地提高分割性能，并比其他模型更好地发挥作用。

近年来，深度学习在遥感图像上的应用取得了令人瞩目的成绩。FCN的出现给遥感图像的分割提高了一种新的思路，FCN对遥感图像进行像素级的分类，从而解决了语义级别的图像分割问题，随后，涌现出诸多改进的FCN。U-Net采用了encoder-decoder的框架，利用skep-layer来恢复丢失的位置信息。与U-Net不同，SegNet利用Unpooling在池化操作期间将最大激活位置记录下来，然后用反卷积操作填补丢失信息的内容。Chen等人提出的Deeplab充分的发挥了空洞卷积优势，在没增加参数的情况下增加特征层的感受野，并且巧妙的将CNN与概率图模型结合起来，通过条件随机场(CRF)实现了结构化的预测、提升了分割精度。

本发明引入了图像级联网络的思想，大大减少了模型参数量。同时利用注意力机制优化编码特征与解码特征，构造出区域注意力模块、多尺度组融合模块，提取和融合不同尺度的特征图，并使用多尺度的语义标签和边界标签指导训练，在模型的参数量仅有8.4M的情况下，有效提高了模型性能。

本发明的主要创新点如下：

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，包括以下步骤：

S11、选取遥感图像语义分割的主干网络；

S22、将收集训练用的遥感图像随机裁剪为固定尺寸的大小；

2.根据权利要求1所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，步骤S11包括以下步骤：

S111、选择输入的主干网络为深度残差网络ResNet50；

3.根据权利要求2所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，所述辅助损失的函数L_pri为：

4.根据权利要求3所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，所述辅助损失为设定损失的一部分，所述设定损失为包括主损失和所述辅助损失的加权和，所述设定损失的函数为：

L_total＝αL_pri+βL_aux；

5.根据权利要求1所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，步骤S12包括以下步骤：

S123、将第一组非对称1×11+11×1的两组特征图相加；

S124、将第二组非对称1×9+9×1的两组特征图相加；

S125、融合第一组和第二组两组卷积的输出的特征。

6.根据权利要求1所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，步骤S13包括以下步骤：

S134、输出每个区域都有不同权重的特征图。

7.根据权利要求6所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，步骤S132包括以下步骤：

8.根据权利要求1所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，步骤S14包括以下步骤：

S141、将编码器输出的32×32特征图输入多尺度组融合模块；

S142、将输入的特征图按照3：1的比例进行分组；

9.根据权利要求1所述的基于区域注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，评估使用的平均交并比MeanIOU、得分F1、像素精度PA的公式分别为：