CN115035295B

CN115035295B - 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法

Info

Publication number: CN115035295B
Application number: CN202210678949.1A
Authority: CN
Inventors: 张致齐; 鲁文; 叶志伟; 曹金山; 常学立
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2024-04-30
Anticipated expiration: 2042-06-15
Also published as: CN115035295A

Abstract

本发明公开一种基于共享卷积核和边界损失函数的遥感图像语义分割方法，分割网络包括特征编码器、解码器和边界损失函数，特征编码器包括三个基础模块，每个基础模块包含多个以不同的空洞率共享同一卷积核的并行分支；解码器利用横纵轴注意力机制融合每个基础模块输出的特征图并上采样至原图大小并对每个像素预测分类得到最终的语义分割结果。针对现有语义分割方法对小目标及边缘分类精度不佳的现状，在网络训练阶段，对真实标签采用Sobel卷积和扩张操作得到边界标签，利用边界损失函数对边界错误施加额外的惩罚，达到让网络注重判断小目标及边界的目的。本发明方法能够较为准确地预测不同尺度的地物，且具有推理速度快、对硬件设备要求不高的特点。

Description

一种基于共享卷积核和边界损失函数的遥感图像语义分割方法

技术领域

本发明涉及遥感图像处理领域，尤其涉及一种基于共享卷积核和边界损失函数的遥感图像语义分割方法。

背景技术

目前，全球对地观测系统已经形成，可以快速获取大量高空间分辨率、高时间分辨率、高光谱分辨率的遥感影像。然而，与采集速度相比，遥感数据的快速智能处理仍然滞后。在人工智能的新时代，如何实现对遥感图像的即时认知已成为亟待解决的问题。

语义分割作为将每个像素划分为特定类别的过程，在土地资源管理、环境变化监测和经济评价中起着至关重要的作用。为了获得高精度的语义分割，传统的语义分割网络，如Unet、FC DenseNet和DeepLabv3+，通常采用宽而深的主干网络作为编码器，但会导致较高的计算复杂度和内存占用。为了避免在大尺寸遥感图像上应用传统语义分割网络时出现内存溢出，以前的一些方法通过缩小原始图像的尺寸来减小内存占用，但下采样会导致边界细节丢失，导致小的地物难以识别，从而抵消了大的主干网络带来的增益。其他一些方法将原始图像裁剪成小块图片，然而，小块图片中缺失的远程上下文信息可能会导致误判。此外，裁剪图像并将预测结果恢复到原始图像大小会导致额外的时间延迟。缩小主干网络的宽度和深度是减少计算复杂度和内存消耗的其他选择，但缩小主干网络的宽度会显著削弱主干的学习能力，而缩小主干网络的深度会导致感受野不足。因此，简单地缩小大型语义分割网络是不可行的。为了提高效率，需要重新设计网络架构。

一些高效的语义分割方法使用轻量级的骨干网络在性能和效率之间折衷。与大型网络相比，高效的轻量级网络消耗更少的硬件资源，在精度上有可接受的差距。研究表明，分割预测误差更容易发生在边界和小地物上，这是因为传统网络通常通过逐层向下采样在大的感受野上积累上下文信息，从而丢失了准确定位边界所必需的空间细节信息。此外，遥感图像具有很多较小的小地物、丰富的边界、小的类间方差和无处不在的阴影等特点。所有这些都会导致边界分割模糊。

因此，现有技术方案存在以下不足：

1、较慢的推理速度，较高的内存占用；

2、需要将原始遥感图像切分成许多的小图片；

3、边界区域误判率较高。

发明内容

针对现有技术之不足，本发明提出一种基于共享卷积核和边界损失函数的遥感图像语义分割方法，所述语义分割网络包括特征编码器、解码器和边界损失函数。特征编码器包括三个基础模块，每个基础模块包含多个并行分支，这些分支以不同的空洞率共享同一卷积核。特征解码器利用横纵轴注意力机制融合每个基础模块输出的特征图并上采样至原图大小并对每个像素预测分类得到最终的遥感图像语义分割结果。针对现有语义分割方法对小目标及边缘分类精度不佳的现状，在网络训练阶段，对真实标签采用Sobel卷积和膨胀操作得到边界标签，利用边界损失函数对边界错误施加额外的惩罚，达到让网络注重判断小目标及边界的目的。本发明方法能够较为准确地预测不同尺度的地物，且具有推理速度快、对硬件设备要求不高的特点，具体包括训练阶段和测试阶段，其中训练阶段包括以下步骤：

步骤1，建立多分支共享卷积模块，多分支共享卷积模块包含三个部分：多分支深度可分共享卷积、多分支深度可分卷积、拼接操作和1×1卷积；

步骤2，基于多分支共享卷积模块建立特征编码器，特征编码器由五个阶段组成，每个阶段将特征图的尺寸缩小1倍，深度扩大1倍；

步骤3，建立特征解码器，特征解码器利用横纵轴注意力机制融合特征编码器第三至第五阶段输出的特征图并上采样至原始图像大小，最后对每个像素预测分类得到最终的遥感图像语义分割结果；

步骤4，结合特征编码器和特征解码器构建语义分割网络，并建立边界标签用于边界损失函数的计算，对真实标签采用Sobel卷积和膨胀操作得到边界标签；

步骤5，在网络的训练阶段，将边界损失函数、辅助损失函数和主损失函数相加得到总损失函数，然后进行梯度求导更新网络参数；

测试阶段包括：对于已经训练好权重的语义分割网络，将待分割的遥感图像输入训练好的语义分割网络，从而得到与原始图像相同尺寸的类别分对数三维矩阵，最后通过softmax函数得到不同类别的预测概率，概率最大的类别即为该像素的预测类别。

进一步的，步骤1中的多分支共享卷积模块，包括以下部分：

第一部分，一个3×3的卷积核被多个深度可分卷积共享，扩张率分别为1、2、…和M，组成M个分支，然后在每个分支中进行批处理规范化；

第二部分，对第i个分支，添加卷积核大小为(2×i–1)的深度可分卷积，然后进行批量归一化，其中i>1；

第三部分，将每个分支的输出特征拼接，然后对融合后的特征进行1×1卷积。

进一步的，步骤2中的特征编码器，包括以下阶段：

第一阶段，由3×3，步长为2的卷积，批量归一化和ReLU激活函数组成，第一阶段输入原始图像的通道数为3，输出特征图的通道数为c/2；

第二阶段，由3×3，步长为2的卷积，批量归一化和ReLU激活函数组成，第二阶段输入特征图的通道数为c/2，输出特征图的通道数为c；

第三阶段，由3×3，步长为2的卷积，批量归一化、ReLU激活函数以及步骤1中的多分支共享卷积模块组成，第三阶段输入特征图的通道数为c，输出特征图的通道数为2c；

第四阶段，由3×3，步长为2的卷积，批量归一化、ReLU激活函数以及步骤1中的多分支共享卷积模块组成，第四阶段输入特征图的通道数为2c，输出特征图的通道数为4c；

第五阶段，由3×3，步长为2的卷积，批量归一化、ReLU激活函数以及步骤1中的多分支共享卷积模块组成，第五阶段输入特征图的通道数为4c，输出特征图的通道数为8c。

进一步的，步骤3的具体处理过程如下；

步骤31，将第五阶段输出的特征图经过1×1的卷积将通道数量从8c缩减到2c后上采样4倍；

步骤32，将第四阶段输出的特征图经过1×1的卷积将通道数量从4c缩减到2c后上采样2倍；

步骤33，将第三阶段输出的特征图与步骤31和步骤32得到的特征图拼接；

步骤34，将步骤33得到的特征图输入到横纵轴注意力模块进行有效特征的强化；

步骤35，将步骤34输出的特征图经过1×1的卷积将通道数量从6c缩减到2c；

步骤36，将步骤35输出的特征图再次输入到横纵轴注意力模块进行有效特征的强化并与步骤35产生的特征图相加；

步骤37，将步骤36产生的特征图经过语义检测头得到不同类别的分对数。

进一步的，横纵轴注意力模块的处理过程如下；

输入特征分别进行X轴平均池化和Y轴平均池化，然后进行拼接和卷积处理，再进行批标准化和非线性激活处理，然后再分别进行卷积和Sigmoid处理得到两个分支的权重，再与输入特征相乘得到输出特征。

进一步的，语义检测头的处理过程如下；

输入特征先经过一个3×3卷积，再进行批标准化和ReLU处理，再进行逐点卷积，获得最终的类别分数对。

进一步的，步骤4中获得边界标签的具体实现过程如下；

步骤41，将真实标签矩阵T0乘以X轴方向的Sobel算子，结果为矩阵T1；其中X轴方向的Sobel算子为：

-1	0	1
			-2	0	2
-1	0	1

步骤42，将真实标签矩阵T0矩阵乘以乘以Y轴方向的Sobel算子，结果为矩阵T2；其中Y轴方向的Sobel算子为：

-1	-2	-1
			0	0	0
1	2	1

步骤43，将步骤41产生的矩阵T1的每个元素做平方操作得到矩阵T3，将步骤42产生的矩阵T2的每个元素做平方操作得到矩阵T4，再将矩阵T3与矩阵T4相加得到矩阵T5；

步骤44，将步骤43产生的矩阵T5的非零元素置为255，得到矩阵T6；

步骤45，将步骤44产生的矩阵T6做膨胀系数为d的膨胀操作得到矩阵T7；

步骤46，标记矩阵T7中值为零的元素的位置P，将真实标签矩阵T0中位置P的元素置为空标签所对应的数值，不参与损失函数的梯度求导。

进一步的，步骤5的具体实现方式如下；

步骤51，将第三阶段至第五阶段输出的特征图经过语义检测检测头，并分别通过双线性插值法上采样8倍、16倍、32倍得到与原始图像相同的尺寸，以边界标签和真实标签为目标计算边界损失函数和辅助损失函数；

步骤52，将步骤37产生的分对数通过双线性插值法上采样8倍，得到与原始图像相同的尺寸，以真实标签为目标计算主损失函数；

步骤53，将边界损失函数、辅助损失函数和主损失函数相加得到总损失函数，然后进行梯度求导更新网络参数。

进一步的，所述边界损失函数、辅助损失函数和主损失函数为现有的损失函数，包括交叉熵损失函数。

本发明的有益效果在于：

1、本发明所提出的多分支共享卷积模块可以分多个阶段堆叠，并作为语义分割的主干提取特征。该模块能够同时较好地捕获针对大地物的上下文信息以及针对小地物和边界的局部信息。

2、本发明所提出的轻量级的语义分割架构只有两个初始卷积层和三个多分支共享卷积模块作为编码器，两个横纵轴注意力模块作为解码器，用于融合不同阶段的多尺度特征图。该语义分割架构有较快的推理速度和较低的内存占用量，能支持较大分辨率的遥感图像切片，对硬件设备要求较低。

3、本发明所提出的边界损失函数通过对边界错误施加额外的惩罚，达到让网络注重判断小目标及边界的目的，该方法能够有效提高不同尺度地物的预测准确率。

附图说明

图1为本发明的多分支核共享卷积核模块结构示意图；

图2为本发明的特征编码器结构；

图3为本发明的网络架构；

图4为本发明使用的横纵轴注意力模块的结构；

图5为本发明使用的语义检测头的结构；

图6为本发明的边界标签展示；

图7为本发明在DeepGlobe Land Cover遥感数据集上的预测结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图3所示，一种基于共享卷积核和边界损失函数的遥感图像语义分割方法，其中语义分割网络的构建及训练包括如下步骤：

步骤1，建立多分支共享卷积模块。多分支共享卷积模块包含三个部分：多分支深度可分共享卷积、多分支深度可分卷积、拼接操作和1×1卷积。具体实施时，如图1所示，建议该模块由三条分支构成。

步骤11，一个3×3的卷积核被多个深度可分卷积共享，扩张率分别为1、2、3，然后在每个分支中进行批处理规范化。

步骤12，对第2个和第3个分支，添加卷积核大小为3×3和5×5的深度可分卷积，然后进行批量归一化。

步骤13，将每个分支的输出特征拼接，然后对融合后的特征进行1×1卷积。

步骤2，基于多分支共享卷积模块建立特征编码器。图2是本发明的特征编码器结构，如图2所示，编码器由五个阶段组成，每个阶段将特征图的尺寸缩小1倍，深度扩大1倍。通过设置图2中通道数c的值可以调整本方法的网络宽度和计算复杂度，c值越大，网络提取特征的能力越强，大型网络的通道数c取值128，中型网络的通道数c取值96，小型网络的通道数c取值64。

步骤21，阶段1和阶段2相同，都是由3×3，步长为2的卷积，批量归一化和ReLU激活函数组成。阶段1输入原始图像的通道数为3，输出特征图的通道数为c/2；阶段2输入特征图的通道数为c/2，输出特征图的通道数为c。

步骤22，阶段3至5相同，都是由3×3，步长为2的卷积，批量归一化、ReLU激活函数以及步骤1得到的多分支共享卷积模块组成。阶段3输入特征图的通道数为c，输出特征图的通道数为2c；阶段4输入特征图的通道数为2c，输出特征图的通道数为4c；阶段5输入特征图的通道数为4c，输出特征图的通道数为8c。

步骤3，建立解码器。图3是本发明的网络架构，如图3下部所示，解码器利用横纵轴注意力机制融合每个基础模块输出的特征图并上采样至原图大小并对每个像素预测分类得到最终的遥感图像语义分割结果。

步骤31，将阶段5输出的特征图经过1×1的卷积将通道数量从8c缩减到2c后上采样4倍。

步骤32，将阶段4输出的特征图经过1×1的卷积将通道数量从4c缩减到2c后上采样2倍。

步骤33，将阶段3输出的特征图与步骤31和步骤32产生的特征图拼接。

步骤34，将步骤33产生的特征图输入到横纵轴注意力模块进行有效特征的强化，图4为本发明使用的横纵轴注意力模块的结构，输入特征分别进行X轴平均池化和Y轴平均池化，然后进行拼接和卷积处理，再进行批标准化和非线性激活处理，然后再分别进行卷积和Sigmoid处理得到两个分支的权重，再与输入特征相乘得到输出特征。

步骤35，将步骤34输入的特征图经过1×1的卷积将通道数量从6c缩减到2c。

步骤36，将步骤35产生的特征图再次输入到横纵轴注意力模块进行有效特征的强化并与步骤35产生的特征图相加。

步骤37，将步骤36产生的特征图经过语义检测头得到不同类别的分对数。图5为本发明使用的语义检测头的结构，输入特征先经过一个3×3卷积，再进行批标准化和ReLU处理，再进行逐点卷积，获得最终的类别分数对。

步骤38，将步骤37产生的分对数通过双线性插值法上采样8倍，得到与原始图片相同的尺寸，最后通过softmax函数得到不同类别的预测概率，概率最大的类别即为该像素的预测类别。

步骤4，建立边界标签用于边界损失函数的计算，边界损失函数使用常用的损失函数，如交叉熵，在网络训练阶段，对真实标签采用Sobel卷积和膨胀操作得到边界标签。

步骤41，将真实标签矩阵T0乘以X轴方向的Sobel算子，结果为矩阵T1。

其中X轴方向的Sobel算子为：

-1	0	1
			-2	0	2
-1	0	1

步骤42，将真实标签矩阵T0矩阵乘以乘以Y轴方向的Sobel算子，结果为矩阵T2。

其中Y轴方向的Sobel算子为：

-1	-2	-1
			0	0	0
1	2	1

步骤43，将步骤41产生的矩阵T1的每个元素做平方操作得到矩阵T3，将步骤42产生的矩阵T2的每个元素做平方操作得到矩阵T4，再将矩阵T3与矩阵T4相加得到矩阵T5。

步骤44，将步骤43产生的矩阵T5的非零元素置为255，得到矩阵T6。

步骤45，将步骤44产生的矩阵T6做膨胀系数为d的膨胀操作得到矩阵T7。

膨胀系数d是一个超参数，用于控制轮廓像素参与边界损失函数计算的范围。由于三个原因，不建议将d设置得太小。首先，如果d设置得太小，则样本太少。其次，与一般图像不同，陆地覆盖卫星图像的边界模糊。最后，应考虑人工标注错误的像素范围。因此，根据经验将d设置为50个像素。

步骤5，在网络的训练阶段，将边界损失函数、辅助损失函数和主损失函数相加得到总损失函数，然后进行梯度求导更新网络参数。可以使用最常见的交叉熵作为损失函数，也可以使用其他的损失函数。

步骤51，如图3上部所示，将阶段3至5输出的特征图经过语义检测检测头，并分别通过双线性插值法上采样8倍、16倍、32倍得到与原始图片相同的尺寸，以边界标签和真实标签为目标计算边界损失函数和辅助损失函数。

步骤52，如图3右下部所示，将步骤37产生的分对数通过双线性插值法上采样8倍，得到与原始图片相同的尺寸，以真实标签为目标计算主损失函数。

对于DeepGlobe Land Cover遥感数据集，采用以下的参数训练网络：

选择AdamW作为优化器，批量大小为6，基本学习率为0.001，余弦衰减。在前10个周期使用热身策略逐步增加学习率至0.001，总共训练300个周期。采用交叉熵作为主损失函数和边界损失函数，以梯度下降法更新网络权重。

网络的预测步骤：对于已经训练好权重的网络，将需要预测的图片输入网络，从而得到与原始图片相同的尺寸的类别分对数三维矩阵，最后通过softmax函数得到不同类别的预测概率，概率最大的类别即为该像素的预测类别。

为了评价所提出的遥感图像语义分割方法的性能，采用遥感图像语义分割中常用的平均交并比作为评价指标，交并比是模型对某一类别预测结果和真实值的交集与并集的比值，平均交并比是所有类别交并比的求和平均值，交并比越高，说明模型对遥感图像语义分割效果越好。

为了验证本方法推理速度快、能支持较大分辨率遥感图像切片的优点，我们测量了不同语义分割方法在六种图像大小下的推理速度(FPS)。如表1所示，与其他网络相比，本方法显示出明显的速度优势。

表1.各种语义分割网络在六种图像大小下的推理速度，类别数为6

*表示由于GPU内存溢出而无法执行。

¹在CPU为Intel 12700KF、GPU NVIDIA RTX 3060 12G和Pytorch环境的计算机上测量每秒帧数(FPS)的推断速度。

为了验证本方法能够同时较好地捕获针对大地物的上下文信息以及针对小地物和边界的局部信息的优点，我们比较了不同语义分割方法在DeepGlobe Land Cover遥感数据集上的分割精度。如表2所示，与其他网络相比，本方法显示出明显的精度优势。

表2.DeepGlobe Land Cover数据集

为了验证本方法提出的边界损失函数可以提高小目标及边界区域预测精度的优点，我们比较了不同语义分割方法在DeepGlobe Land Cover遥感数据集上的预测结果图。如图7所示，与其他网络相比，本方法显示出明显的预测效果优势。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于，包括训练阶段和测试阶段，其中训练阶段包括以下步骤：

2.根据权利要求1所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：步骤1中的多分支共享卷积模块，包括以下部分：

3.根据权利要求1所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：步骤2中的特征编码器，包括以下阶段：

4.根据权利要求1所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：步骤3的具体处理过程如下；

5.根据权利要求4所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：横纵轴注意力模块的处理过程如下；

6.根据权利要求4所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：语义检测头的处理过程如下；

7.根据权利要求1所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：步骤4中获得边界标签的具体实现过程如下；

-1 0 1 -2 0 2 -1 0 1

-1 -2 -1 0 0 0 1 2 1

8.根据权利要求4所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：步骤5的具体实现方式如下；

9.根据权利要求1所述基于共享卷积核和边界损失函数的遥感图像语义分割方法，其特征在于：所述边界损失函数、辅助损失函数和主损失函数为现有的损失函数，包括交叉熵损失函数。