CN113887517B

CN113887517B - 基于并行注意力机制的农作物遥感图像语义分割方法

Info

Publication number: CN113887517B
Application number: CN202111272099.7A
Authority: CN
Inventors: 董荣胜; 马雨琪; 刘意; 李凤英
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-04-09
Anticipated expiration: 2041-10-29
Also published as: CN113887517A

Abstract

本发明公开一种基于并行注意力机制的农作物遥感图像语义分割方法，先对农作物遥感图像数据集的农作物遥感图像进行预处理；再搭建基于并行注意力的农作物遥感图像语义分割网络，并利用预处理后的农作物遥感图像数据集对网络进行训练；后将待语义分割的农作物遥感图像送入到训练好的基于并行注意力的农作物遥感图像语义分割网络中进行语义分割，得到待语义分割的农作物遥感图像的精确分割结果。本发明中构建的语义分割网络，综合解决了现有农作物遥感图像语中存在的类内差异大、类间差异小且地物信息复杂多样、干扰信息多导致边界分割不准的问题，提高了农作物遥感图像语义分割网络的性能。

Description

基于并行注意力机制的农作物遥感图像语义分割方法

技术领域

本发明涉及农作物遥感图像语义分割技术领域，具体涉及一种基于并行注意力机制的农作物遥感图像语义分割方法。

背景技术

高分辨率农作物遥感图像通常包含建筑、树木、农作物等地物目标丰富的细节信息和分布特征。农作物遥感图像语义分割旨在对农作物遥感图像进行像素级分类，将图像分割为具有不同语义标识的区域。对农作物遥感图像进行语义分割能精准、快速地获取农作物的面积以及分布情况，这对监测农作物面积、长势或灾害，识别农作物类型，评估农作物产量等方面有着重要的意义。

在过去的几十年中，国内外很多学者对图像分割技术展开了研究。传统的图像分割方法有阈值分割法、区域分割法和边缘检测法等，这些方法只能针对一些简单场景中的物体进行分割，对于地物复杂的海量遥感图像，耗时长且效果并不理想。近年来，随着大规模数据集的出现，深度学习技术在遥感图像语义分割领域的应用越来越具优势。基于深度学习的语义分割，是对每个像素进行分类。相比传统语义分割方法，基于深度学习的语义分割方法兼顾了速度和精度。此外，一些学者将注意力机制引入到语义分割网络中，用来捕获像素间的长距离相关关系，从全局信息中提取出更重要的信息，以达到更好的分割效果。Hu等人应用SE(Squeeze-and-Excitation)注意力模块学习通道特征间的相关性，并给每个通道分配不同权重，以强调有用的通道特征，抑制无关的通道特征。Woo等人提出的CBAM(Convolutional Block Attention Module)模块结合了空间和通道注意力机制，涵盖了更丰富的图像特征。Hou等人在CA(Coordinate Attention)模块通过嵌入位置信息到通道注意力中，以获取跨通道的方向与位置信息，使网络能更准确地定位并识别目标区域。

与自然图像的语义分割相比，农作物遥感图像的语义分割主要存在以下两方面的挑战：1.受到农作物外形相似、拍摄角度不同等因素影响，农作物遥感图像存在类内差异大、类间相似度高等问题。例如，图1(a)中原图和标签所示为玉米，由于玉米与薏仁米外形相似，网络将玉米错误分类为薏仁米，可视化所示为薏仁米；图1(b)中原图和标签所示为薏仁米，被错误分类为玉米，可视化所示为玉米。而相同农作物的外形特征差异性大，使得网络将同种农作物错误分类为其他农作物。例如，图1(c)中原图和标签所示为薏仁米，网络将薏仁米错误分类为烤烟，可视化中部分为烤烟。2.农作物在农用地上的分布上通常相邻，且农用地中的地物信息复杂多样，干扰信息多，导致相邻农作物的边界分割不准确，如图1(d)所示。然而，现有的语义分割方法多用于解决自然图像分割问题，针对农作物图像的语义分割方法研究较少，因此亟待发展适用于农作物遥感图像的语义分割方法。

发明内容

本发明所要解决的是农作物遥感图像上部分农作物类间相似度高、类内差异性大和相邻农作物边界划分不清等问题，提供一种基于并行注意力机制的农作物遥感图像语义分割方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于并行注意力机制的农作物遥感图像语义分割方法，包括步骤如下：

步骤1、获取农作物遥感图像数据集，对农作物遥感图像数据集的农作物遥感图像进行预处理得到预处理后的农作物遥感图像数据集；

步骤2、搭建基于并行注意力的农作物遥感图像语义分割网络；

该基于并行注意力的农作物遥感图像语义分割网络由输入层、初始模块、4个残差模块、6个上采样模块、3个相加模块、3个CA注意力模块和输出层组成；输入层的输出端连接初始模块的输入端，初始模块的输出端连接第一残差模块的输入端，第一残差模块的输出端连接第二残差模块的输入端，第二残差模块的一个输出端连接第三残差模块的输入端，第三残差模块的一个输出端连接第四残差模块的输入端；第四残差模块的输出端连接第一上采样模块的输入端，第一上采样模块的一个输出端连接第一相加模块的一个输入端，第一上采样模块的另一个输出端连接第一CA注意力模块；第三残差模块的输出端连接第一相加模块的另一个输入端，第一相加模块的输出端连接第二上采样模块的输入端，第二上采样模块的一个输出端连接第二相加模块的一个输入端，第二上采样模块的另一个输出端连接第二CA注意力模块；第二残差模块的输出端连接第二相加模块的另一个输入端，第二相加模块的输出端连接第三上采样模块的输入端，第三上采样模块的输出端连接第三CA注意力模块；第一CA注意力模块的输出端连接第四上采样模块的输入端；第二CA注意力模块的输出端连接第五上采样模块的输入端；第三CA注意力模块的输出端连接第六上采样模块的输入端；第四上采样模块的输出端连接第三相加模块的一个输入端；第五上采样模块的输出端连接第三相加模块的另一个输入端；第六上采样模块的输出端连接第三相加模块的又一个输入端；第三相加模块的输出端连接输出层的输入端；

步骤3、利用步骤1所得的预处理后的农作物遥感图像数据集对步骤2所构建的基于并行注意力的农作物遥感图像语义分割网络进行训练，得到训练好的基于并行注意力的农作物遥感图像语义分割网络；

步骤4、将待语义分割的农作物遥感图像送入到步骤3所得到的训练好的基于并行注意力的农作物遥感图像语义分割网络中进行语义分割，得到待语义分割的农作物遥感图像的精确分割结果。

在基于并行注意力的农作物遥感图像语义分割网络中，初始模块由卷积层和池化层组成；卷积层的输入端形成初始模块的输入端，初始模块的输出端连接池化层的输入端，池化层的输出端形成初始模块的输出端。

在基于并行注意力的农作物遥感图像语义分割网络中，第一残差模块由3个残差层组成；第二残差模块由4个残差层组成；第三残差模块由6个残差层组成；第四残差模块由3个残差层组成；对于每个残差模块：所有残差层依次串联，第一个残差层的输入端形成该残差模块的输入端，最后一个残差层的输出端形成该残差模块的输出端。

在基于并行注意力的农作物遥感图像语义分割网络中，残差层由2个卷积层、2个批归一化层、ReLU激活函数层和相加层组成；第一卷积层的输入端形成残差层的输入端；第一卷积层的输入端连接相加层的一个输入端，第一卷积层的输出端连接第一批归一化层的输入端，第一批归一化层的输出端连接ReLU激活函数层的输入端，ReLU激活函数层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接第二批归一化层的输入端，第二批归一化层的输出端连接相加层的另一个输入端；相加层的输出端形成残差层的输出端。

在基于并行注意力的农作物遥感图像语义分割网络中，CA注意力模块由4个卷积层、2个平均池化层、拼接层、批归一化层，ReLU激活函数层、2个sigmoid激活函数层和相乘层组成；第一卷积层的输入端形成CA注意力模块的输入端；第一卷积层的一个输出端连接相乘层的一个输入端，第一卷积层的另一个输出端连接第一平均池化层的输入端，第一卷积层的又一个输出端连接第二平均池化层的输入端；第一卷积层的输入端和第二卷积层的输出端连接拼接层的两个输入端，拼接层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接批归一化层的输入端，批归一化层的输出端连接ReLU激活函数层的输入端；ReLU激活函数层的一个输入端经由第三卷积层连接第一sigmoid激活函数层的输入端，ReLU激活函数层的另一个输入端经由第四卷积层连接第二sigmoid激活函数层的输入端；第一sigmoid激活函数层的输出端连接相乘层的另一输入端，第二sigmoid激活函数层的输出端连接相乘层的又一输入端；相乘层的输出端形成CA注意力模块的输出端。

与现有技术相比，本发明综合解决了现有农作物遥感图像语中存在的类内差异大、类间差异小且地物信息复杂多样、干扰信息多导致边界分割不准的问题，提高了农作物遥感图像语义分割网络的性能。

附图说明

图1为可视化示例，(a)为相似类错分，(b)为相似类错分，(c)为同类错分，(d)为边界不清。

图2为基于并行注意力机制的农作物遥感图像语义分割方法的流程图。

图3为基于并行注意力的农作物遥感图像语义分割网络的整体结构示意图。

图4为初始模块的结构示意图。

图5为残差模块的结构示意图，(a)为第一残差模块，(b)为第二残差模块，(c)为第三残差模块，(d)为第四残差模块，(e)为残差层。

图6为CA注意力模块的结构示意图。

图7为不同方法的分割结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种基于并行注意力机制的农作物遥感图像语义分割方法，如图2所示，其具备包括步骤如下：

步骤1：获取农作物遥感图像数据集，对农作物遥感图像数据集的农作物遥感图像进行预处理得到预处理后的农作物遥感图像数据集。

对农作物遥感图像进行预处理包括图像裁剪和数据增强：即先用滑动窗口方式进行裁剪，并过滤掉无效区域占比大于7/8的部分，裁剪后子图的大小为512×512像素；再将裁剪后的子图和标签进行任意的水平翻转、垂直翻转、缩放、亮度调整和对比度调整等数据增强操作。

本实施例基于2019天池县域农业大脑AI挑战赛提供的大麦遥感数据集为例，该数据集的地物类别包括5类，分别为玉米、薏仁米、烤烟、人造建筑、其他。

步骤2：搭建基于并行注意力的农作物遥感图像语义分割网络，并设置网络参数。

基于并行注意力的农作物遥感图像语义分割网络，如图3所示，包括主干结构、特征金字塔结构、并行注意力结构和上采样结构。

1)主干结构

在主干结构中，输入层的输出端连接初始模块的输入端，初始模块的输出端连接第一残差模块的输入端，第一残差模块的输出端连接第二残差模块的输入端，第二残差模块的一个输出端连接第三残差模块的输入端，第三残差模块的一个输出端连接第四残差模块的输入端。

参见图4，初始模块由1个核为7×7、步长为2的卷积层和1个核为2×2、步长为2的池化层组成，初始模块通道取值为64，主要用于升维。

参见图5，4个残差模块的结构分别为：第一残差模块由3个残差层串接而成(图5(a))，第二残差模块由4个残差层串接而成(图5(b))，第三残差模块由6个残差层串接而成(图5(c))，第四残差模块由3个残差层串接而成(图5(d))。对于每个残差模块，第一个残差层的输入端形成该残差模块的输入端，最后一个残差层的输出端形成该残差模块的输出端。所有残差模块的残差层的主要结构相同，唯一的不同在于输入与输出的特征平面的尺寸和通道数不同。第一、二、三、四残差模块中残差层的通道值C取值分别为64、128、256、512。如图5(e)所示，残差层用于特征提取，每个残差层由2个核为3×3、步长为1卷积层，2个批归一化层(batchnorm层)、1个ReLU激活函数层和1个相加层组成。第一卷积层的输入端形成残差层的输入端；第一卷积层的输入端连接相加层的一个输入端，第一卷积层的输出端连接第一批归一化层的输入端，第一批归一化层的输出端连接ReLU激活函数层的输入端，ReLU激活函数层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接第二批归一化层的输入端，第二批归一化层的输出端连接相加层的另一个输入端；相加层的输出端形成残差层的输出端。激活函数ReLU，计算公式为ReLU＝max(0,x)，其中x为第一个批归一化层的输出。

2)特征金字塔结构

在特征金字塔结构中，第四残差模块的输出端连接第一上采样模块的输入端，第一上采样模块的一个输出端连接第一相加模块的一个输入端，第一上采样模块的另一个输出端连接第一CA注意力模块；第三残差模块的输出端连接第一相加模块的另一个输入端，第一相加模块的输出端连接第二上采样模块的输入端，第二上采样模块的一个输出端连接第二相加模块的一个输入端，第二上采样模块的另一个输出端连接第二CA注意力模块；第二残差模块的输出端连接第二相加模块的另一个输入端，第二相加模块的输出端连接第三上采样模块的输入端，第三上采样模块的输出端连接第三CA注意力模块。

第四残差模块经过上2倍双线性插值法上采样后与第三残差模块相加，第三残差模块经过上2倍双线性插值法上采样后与第二残差模块相加，第二残差模块经过上2倍双线性插值法上采样。相加的作用是融合不同层的特征。

3)并行注意力结构

在并行注意力结构中，第一CA注意力模块的输出端连接第四上采样模块的输入端；第二CA注意力模块的输出端连接第五上采样模块的输入端；第三CA注意力模块的输出端连接第六上采样模块的输入端。

特征金字塔结构输出的三层特征图，输入到CA注意力模块中，CA注意力模块通过在垂直和水平方向的上对空间信息进行编码后，再在通道上加权，以获取跨通道的方向与位置信息，使网络能更准确地定位并识别目标区域。

参见图6，CA注意力模块由4个卷积层、2个平均池化层、拼接层、批归一化层，ReLU激活函数层、2个sigmoid激活函数层和相乘层组成。第一卷积层的输入端形成CA注意力模块的输入端；第一卷积层的一个输出端连接相乘层的一个输入端，第一卷积层的另一个输出端连接第一平均池化层的输入端，第一卷积层的又一个输出端连接第二平均池化层的输入端；第一卷积层的输入端和第二卷积层的输出端连接拼接层的两个输入端，拼接层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接批归一化层的输入端，批归一化层的输出端连接ReLU激活函数层的输入端；ReLU激活函数层的一个输入端经由第三卷积层连接第一sigmoid激活函数层的输入端，ReLU激活函数层的另一个输入端经由第四卷积层连接第二sigmoid激活函数层的输入端；第一sigmoid激活函数层的输出端连接相乘层的另一输入端，第二sigmoid激活函数层的输出端连接相乘层的又一输入端；相乘层的输出端形成CA注意力模块的输出端。

每个CA注意力模块包含9层运算：第一层为1×1卷积层，将通道维度降为5。可以视为一个分类器，将全局特征映射到5个通道中，与分类类别一一对应，每个通道即可代表一个类别的特征；第二层为平均池化层，对每张特征图的H和W方向压缩成1，得到两张特征图C×H×1和C×1×W；第三层为拼接层，再在C方向上进行拼接，得到一个C×1×(H×W)的特征图；第四层为1×1卷积层，作用是降维；第五层为批归一化层，作用加速收敛，防止过拟合；第六层为激活函数ReLU，计算公式为ReLU＝max(0,x)，其中x为第五层的输出特征；第七层为卷积层，将第六层的输出特征图经过分割(split)后，再分别经过两个1×1卷积升维；第八层为sigmoid激活函数，计算公式为其中y为第七层的输出的特征；第九层将三条分支上的特征图相乘。

4)上采样结构

在上采样结构中，第四上采样模块的输出端连接第三相加模块的一个输入端；第五上采样模块的输出端连接第三相加模块的另一个输入端；第六上采样模块的输出端连接第三相加模块的又一个输入端；第三相加模块的输出端连接输出层的输入端。

第四上采样模块、第五上采样模块和第六上采样模块相加得到的结果再经过2倍双线性插值，最后得到512×512像素的输出结果图。

在构建完网络后，需要对网络的初始参数进行设置。在本实施例中，设置的网络参数包括：所有样本的批尺寸为10，迭代次数为100；网络的权重衰减为0.0005，初始学习率为0.0005；同时引入poly衰减策略来调整学习率，计算公式为：

其中，lr为本轮学习率，base_lr为初始学习率，epoch为当前迭代次数，num_epoch是最大迭代次数，power为0.9。

步骤3：利用步骤1所得的预处理后的农作物遥感图像数据集对步骤2所构建的基于并行注意力的农作物遥感图像语义分割网络进行训练，用类别平衡损失函数进行反向传播更新网络参数，并通过随机梯度下降优化损失函数，得到训练好的基于并行注意力的农作物遥感图像语义分割网络。

类别平衡损失函数公式为：

其中，n_y是类别y的标签的数量，本文n_y为5。p是预测类概率。β＝0对应没有重新加权，β→1对应于用反向频率进行加权。

步骤4：将待语义分割的农作物遥感图像送入到步骤3所得到的训练好的基于并行注意力的农作物遥感图像语义分割网络中进行语义分割，得到待语义分割的农作物遥感图像的精确分割结果。

下面采用交并比(IoU)和平均交并比(MIoU)作为农作物图像分割的评估指标来对本发明的效果进行说明：

交并比IoU表示分割结果与其真实值的重合度：

平均交并比MIoU表示语义分割的标准度量：

其中，测试数据集中总共有k个类，p_ii表示第i类数据中被标记为第i类的数量，p_ij表示第i类数据中被标记为第j类的数量，p_ji表示第j类数据中被标记为第i类的数量。

表1为不同方法的IoU和MIoU对比表。从表1可以看出，本发明方法在MIoU上相比经典的LinkNet、PSPNet、DeepLab V3+和FPN网络均有提高。

表1不同方法的IoU和MIoU对比表

注：加粗字体为每列最优值

由表1可以看出本文提出的网络在MIoU上为65.94％，与LinkNet、PSPNet、DeeplabV3+、和FPN相比分别提高了4.47％、1.91％、1.62％和0.68％。在玉米上的IoU均达到了最优。

图7为不同方法的分割结果图。由图7可以看出，与LinkNet、PSPNet、Deeplab V3+和FPN相比，本文方法的分割效果与真实标签相近，能够区分出外形相似的不同农作物以及识别出差异较大的同种农作物，并且分割出完整清晰的边界。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.基于并行注意力机制的农作物遥感图像语义分割方法，其特征是，包括步骤如下：

该基于并行注意力的农作物遥感图像语义分割网络由输入层、初始模块、4个残差模块、6个上采样模块、3个相加模块、3个CA注意力模块和输出层组成；

输入层的输出端连接初始模块的输入端，初始模块的输出端连接第一残差模块的输入端，第一残差模块的输出端连接第二残差模块的输入端，第二残差模块的一个输出端连接第三残差模块的输入端，第三残差模块的一个输出端连接第四残差模块的输入端；

第四残差模块的输出端连接第一上采样模块的输入端，第一上采样模块的一个输出端连接第一相加模块的一个输入端，第一上采样模块的另一个输出端连接第一CA注意力模块；第三残差模块的输出端连接第一相加模块的另一个输入端，第一相加模块的输出端连接第二上采样模块的输入端，第二上采样模块的一个输出端连接第二相加模块的一个输入端，第二上采样模块的另一个输出端连接第二CA注意力模块；第二残差模块的输出端连接第二相加模块的另一个输入端，第二相加模块的输出端连接第三上采样模块的输入端，第三上采样模块的输出端连接第三CA注意力模块；

第一CA注意力模块的输出端连接第四上采样模块的输入端；第二CA注意力模块的输出端连接第五上采样模块的输入端；第三CA注意力模块的输出端连接第六上采样模块的输入端；

第四上采样模块的输出端连接第三相加模块的一个输入端；第五上采样模块的输出端连接第三相加模块的另一个输入端；第六上采样模块的输出端连接第三相加模块的又一个输入端；第三相加模块的输出端连接输出层的输入端；

2.根据权利要求1所述的基于并行注意力机制的农作物遥感图像语义分割方法，其特征是，初始模块由卷积层和池化层组成；卷积层的输入端形成初始模块的输入端，初始模块的输出端连接池化层的输入端，池化层的输出端形成初始模块的输出端。

3.根据权利要求1所述的基于并行注意力机制的农作物遥感图像语义分割方法，其特征是，第一残差模块由3个残差层组成；第二残差模块由4个残差层组成；第三残差模块由6个残差层组成；第四残差模块由3个残差层组成；对于每个残差模块：所有残差层依次串联，第一个残差层的输入端形成该残差模块的输入端，最后一个残差层的输出端形成该残差模块的输出端。

4.根据权利要求3所述的基于并行注意力机制的农作物遥感图像语义分割方法，其特征是，残差层由2个卷积层、2个批归一化层、ReLU激活函数层和相加层组成；第一卷积层的输入端形成残差层的输入端；第一卷积层的输入端连接相加层的一个输入端，第一卷积层的输出端连接第一批归一化层的输入端，第一批归一化层的输出端连接ReLU激活函数层的输入端，ReLU激活函数层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接第二批归一化层的输入端，第二批归一化层的输出端连接相加层的另一个输入端；相加层的输出端形成残差层的输出端。

5.根据权利要求1所述的基于并行注意力机制的农作物遥感图像语义分割方法，其特征是，CA注意力模块由4个卷积层、2个平均池化层、拼接层、批归一化层，ReLU激活函数层、2个sigmoid激活函数层和相乘层组成；

第一卷积层的输入端形成CA注意力模块的输入端；第一卷积层的一个输出端连接相乘层的一个输入端，第一卷积层的另一个输出端连接第一平均池化层的输入端，第一卷积层的又一个输出端连接第二平均池化层的输入端；第一卷积层的输入端和第二卷积层的输出端连接拼接层的两个输入端，拼接层的输出端连接第二卷积层的输入端，第二卷积层的输出端连接批归一化层的输入端，批归一化层的输出端连接ReLU激活函数层的输入端；ReLU激活函数层的一个输入端经由第三卷积层连接第一sigmoid激活函数层的输入端，ReLU激活函数层的另一个输入端经由第四卷积层连接第二sigmoid激活函数层的输入端；第一sigmoid激活函数层的输出端连接相乘层的另一输入端，第二sigmoid激活函数层的输出端连接相乘层的又一输入端；相乘层的输出端形成CA注意力模块的输出端。