CN115909332A

CN115909332A - 一种基于通道特征加强的农业遥感图像语义分割方法

Info

Publication number: CN115909332A
Application number: CN202211371489.4A
Authority: CN
Inventors: 蒋佳成; 陆广泉; 李杰成; 韩亚丹
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-04-04

Abstract

本发明公开了一种基于通道特征加强的农业遥感图像语义分割方法，包括如下步骤：S1：划分农业语义分割图像数据集；S2：定义数据读取中的预处理方案；S3：定义随机权重采样器、分布式数据加载器；S4：从数据加载器中加载数据，开始特征提取；S5：使用空间金字塔结构和解码器模块，计算得到模型对图像每一个像素点的预测图x_pred；S6:计算损失函数；S7：测试；S8：计算每一个语义类的采样概率，重构数据加载器；S9：重复以上步骤至模型训练完成。这种方法使得模型对每一个像素点的语义类预测更加准确，提升预测的精度和鲁棒性。

Description

一种基于通道特征加强的农业遥感图像语义分割方法

技术领域

本发明涉及航天遥感技术领域，具体是一种基于通道特征加强的农业遥感图像语义分割方法。

背景技术

深度学习在各类视觉任务中推动了多个研究领域的进步，其中，语义分割是一项将图像中不同的语义类分割出来的技术，一个语义分割模型应当可以对特定的目标标注出所在位置及其轮廓。农田的视觉任务具有巨大的经济价值，但应用在农业图像的语义分割方法却进展甚微。

IBN-Net[1]是一种基于实例归一化(IN)和批处理归一化(BN)的模块，其中IN可以学习到一些不会随着类似颜色、样式等外观变化而改变的特征，而BN可以有助于保存与图像原始特征相关的信息，并用于模型的后续特征提取步骤。IBN-Net泛用性良好，作为模块可以穿插在不同的模型中使用，但将其应用在农业遥感图像领域却有缺陷，该技术是基于传统的由红绿蓝三个通道特征构成的图像，即RGB图像设计的，而农业遥感图像可能存在着多模态特征，比如近红外特征，从而构成高于三通道数的多通道原始特征图，这导致了基于RGB图像研发的IBN-Net无法充分利用到这些拓展特征。而后，IBN-s[2]模块的提出，成功将IBN-Net应用在农业遥感图像语义分割数据集中，其提出一种用SN替换IN和BN的方法对IBN-Net进行调整，但本质上SN依旧由IN和BN组成，只是可以根据不同的模型深度权衡IN和BN的影响，这样做可以减少RGB和近红外特征之间的KL散度，但影响有限，甚至在不同数据集上，反而效果不如IBN-Net。

[1]Pan X,Luo P,Shi J,et al.Two at once:Enhancing learning andgeneralization capacities via ibn-net[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:464-479.

[2]Yang S,Yu S,Zhao B,et al.Reducing the feature divergence of RGBand near-infrared images using Switchable Normalization[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern RecognitionWorkshops.2020:46-47.

发明内容

本发明的目的是针对现有技术中存在的不足，而提供一种基于通道特征加强的农业遥感图像语义分割方法。这种方法使得模型对每一个像素点的语义类预测更加准确，提升预测的精度和鲁棒性。

实现本发明目的的技术方案是：

一种基于通道特征加强的农业遥感图像语义分割方法，包括如下步骤：

S1：划分农业语义分割图像数据集，将数据划分为训练集和测试集，其中训练集用于训练模型，测试集用于评估模型泛化性能；

S2：定义数据读取中的预处理方案，具体过程为：

S21：分别读取RGB图像和对应的拓展特征图像，读取对应的来自每个语义类的标签图像并拼接在一起，若某个数据集包含a个语义类，则标签图像为a通道图像；

S22：对RGB图像进行颜色饱和度随机调整；

S23：对RGB图像、拓展特征图像、标签图像，同时进行随机缩放，随机垂直翻转，随机水平翻转，随机旋转；

S24：将RGB图像和拓展图像特征矩阵做标准化处理，按通道将RGB图像和拓展特征图像进行拼接，若拓展特征图像的通道数为b，则拓展特征图像与RGB图像拼接后组成3+b通道的图像；

S3：定义随机权重采样器，一个成型的模型需要多轮训练，即每重复一次所有步骤为一轮训练，在模型的第一轮训练中，为训练集中每张图像分配相同的权重进行随机采样，定义分布式数据加载器，从而达到可以使用多张显卡进行分布式训练的目的，提升模型训练效率；

S4：从数据加载器中加载数据，开始特征提取，具体步骤如下：

S41：将图像特征矩阵x和标签图像矩阵传入GPU；

S42：图像特征矩阵x在使用卷积核为7的二维卷积层映射至高维通道后，到达瓶颈块；在瓶颈块中将W×H×C维度的图像特征矩阵x传入通道加强模块，其中W×H表示每一层特征包含的像素点数量，C表示通道数量，对各层特征做平均池化压缩成1×1×C的特征向量h_cne；

S43：对特征向量h_cne在卷积核大小为3，输入通道数和输出通道数相等的一维卷积层上进行卷积，得到特征向量h₁；

S44：将特征向量h₁在输入维度为图像特征矩阵x的原始输入通道数，输出维度为瓶颈块特征提取输出通道数的全连接层进行映射，并将新向量用于覆盖更新特征向量h₁，得到特征向量h₂；

S45：将特征向量h₂传入Sigmoid层，使用新向量覆盖更新得到特征向量h₃并返回；

S46：对原始图像特征矩阵x做IBN-a残差连接前的特征提取，并覆盖更新得到图像特征矩阵x₁；

S47：将图像特征矩阵x₁和S45得到的特征向量h₃相乘，更新图像特征矩阵x₁并残差连接，经过ReLU层计算后向模型主框架返回覆盖更新得到的图像特征矩阵x₂；

S5：使用空间金字塔结构和解码器模块，计算得到模型对图像每一个像素点的预测图x_pred；

S6:计算损失函数，利用梯度下降算法更新迭代参数，经过多次迭代之后使得损失函数收敛，其中，损失函数公式定义为：

L_total＝0.5L_CE+0.5L_Dice，

其中L_CE表示交叉熵损失函数，L_Dice表示Dice损失函数，将两种损失函数通过同样的权重加权组合得到整体的损失函数；

S7：模型训练结束之后进入测试环节，对训练好的模型使用测试集获取预测图像特征矩阵x_val的步骤与步骤S4至S5的训练过程一致，同时计算得到模型对每一个类别的识别精度IoU_i，其中i表示一个语义类；

S8：根据式：

计算每一个语义类的采样概率，其中n_total表示当前数据集中所有图像的数量，n_i表示第i个语义类涉及的图像数量，IoU_i表示当前模型对语义类i的识别精度，IoU分数是对象类别分割问题的标准性能度量，由于一张图像包含有多个语义类，定义一张图像被采样用于训练的概率为该图像所涉及所有语义类的概率平均值，按照每一张图像的采样概率，重新定义采样数据加载器对模型进行训练；

S9：步骤S2至S8为一轮模型训练，按照既定目标重复步骤S2至S8完成模型训练。

本技术方案与现有技术相比:

解决IBN-Net无法充分利用四通道数及以上的图像特征的问题，最终实现一种在相同环境配置和实验数据下超过IBN-Net性能的新技术。此外，农业遥感图像语义分割数据集中存在较显著的不平衡现象，IBN-Net的训练策略没有对此采取措施，IBN-s采用加权损失函数来应对样本不均衡，但仍不够充分，故在使用与IBN-s不同的加权损失函数的基础上，提出一种自适应重采样训练策略，缓解不平衡现象带来的影响，提升模型性能。

该方法有效提取通道特征信息，使模型对位于不同通道处的特征有差别地进行关注，即将注意力更多地放在重要信息上。此外，该方法涉及的自适应重采样训练策略，配合加权损失函数，可以有效缓解数据集中样本不均衡现象给模型训练带来的负面影响，使得模型对每一个像素点的语义类预测更加准确，提升预测的精度和鲁棒性。

附图说明

图1为实施例中基于IBN-a模块引入通道加强模块的结构图；

图2为实施例的流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

本例将ResNet-101模型中原有的瓶颈块替换为如图1所示的CE模块并记作ResNet-CE，令ResNet-CE作为编码器应用在DeepLabv3+模型当中。本例使用农业遥感语义分割图像数据集Agriculture-Vision，该数据集由无人机真实拍摄，包含3,432个农田的94,986张高质量航拍图像，其中每组图像由RGB和近红外(NIR)通道组成。

如图2所示，一种基于通道特征加强的农业遥感图像语义分割方法，包括如下步骤：

S2：定义数据读取中的预处理方案，具体过程为：

S21：分别读取RGB图像和对应的拓展特征图像，读取对应的来自每个语义类的标签图像并拼接在一起，若某个数据集包含9个语义类，则标签图像为9通道图像；

S22：对RGB图像进行颜色饱和度随机调整；

S24：将RGB图像和拓展图像特征矩阵做标准化处理，按通道将RGB图像和拓展特征图像进行拼接，若拓展特征图像的通道数为1，则拓展特征图像与RGB图像拼接后组成4通道的图像；

S25：对标签图像标准化处理；本例对Agriculture-Vision数据集中的图像进行预处理，对维度为512×512×3的RGB图像和维度为512×512×1的NIR图像数据增强后拼接成512×512×4的特征图，将多个语义类的标签图像拼接成512×512×9的新标签图；

S3：定义随机权重采样器，一个成型的模型需要多轮训练，即每重复一次所有步骤为一轮训练，判断当前是否为第一轮训练，若为是则定义训练集中每张图像以相同的采样概率来构造权重随机采样器、分布式数据加载器，从而可以使用多张显卡分布式训练，提升模型训练效率；

S4：将ResNet-101模型中原有的瓶颈块替换为如图1所示的CE模块并记作ResNet-CE，令ResNet-CE作为编码器应用在DeepLabv3+模型当中作为最终模型，定义SGD优化器，其中优化器的学习率设置为0.01，权重衰减设置为0.0004，将定义好的模型和优化器传入GPU；

S5：从数据加载器中加载数据，开始特征提取，具体步骤如下：

S51：构建ResNet模型，首先将512×512×4尺度的图像特征矩阵映射到512×512×64，并通过BatchNorm2d和ReLU层，完成特征映射得到图像特征矩阵x；

S52：图像特征矩阵x进入瓶颈块，如图1所示，图像特征矩阵x进入通道加强模块后得到通道特征向量h_cne，图像特征矩阵x经过IBN-a特征处理后，得到新特征矩阵x₁，将x₁与通道特征向量h_cne相乘后，更新得到特征矩阵x₂，残差连接将x₂与原始特征相加并通过ReLU层得到最终图像特征矩阵x_final并返回；

S53：由于ResNet-CE和ResNet-101的整体结构相同，所以按照ResNet-101的模型结构重复S52进行特征提取；

S54：将步骤S51至S53最终得到的图像特征矩阵x_final，按照DeepLabv3+模型的框架设计，传入ASPP模块和解码器模块，最终得到模型预测图x_pred，尺度为512×512×9，与标签图尺度一致，返回矩阵x_pred；

L_total＝0.5L_CE+0.5L_Dice，

S7：模型训练结束之后进入测试环节验证模型泛化性能，对训练好的模型使用测试集获取预测图像特征矩阵x_val的步骤与S4至S5的训练过程一致，同时计算得到模型对每一个类别的识别精度IoU_i，其中i表示一个语义类；

S8：根据式：

计算每一个语义类的采样概率，其中n_total表示当前数据集中，所有图像的数量，n_i表示第i个语义类涉及的图像数量，IoU_i表示当前模型对语义类i的识别精度，IoU分数是对象类别分割问题的标准性能度量，由于一张图像包含有多个语义类，定义一张图像被采样用于训练的概率为该图像所涉及所有语义类的概率平均值，按照每一张图像的采样概率，重新定义采样数据加载器对模型进行新一轮的训练；

S9：整个训练过程涉及2000次热启动训练，8000次静态学习率训练，20000次学习率衰减训练，此时损失函数趋于收敛，停止训练。

通过在相同环境配置下，实现其他的现有方法，获取识别精度参与对比，实验结果如表1所示：

方法	mIoU(％)
		LinkNet	29.62
DeepLabv3+	38.41
		FPN	38.61
DeepLabv3	41.14
		IBN-s	41.39
IBN-a	45.29
		本方法	47.01

，从表1可以看出，本例方法的识别精度均高于现有方法。

Claims

1.一种基于通道特征加强的农业遥感图像语义分割方法，包括如下步骤：

S1：划分农业语义分割图像数据集，将数据划分为训练集和测试集；

S2：定义数据读取中的预处理方案，具体过程为：

S21：分别读取RGB图像和对应的拓展特征图像，读取对应的来自每个语义类的标签图像并拼接在一起，若某个数据集包含a个语义类，则标签图像为，由这a个语义类标签图像拼接而成的a通道图像；

S22：对RGB图像进行颜色饱和度随机调整；

S3：定义随机权重采样器，一个成型的模型需要多轮训练，即每重复一次所有步骤为一轮训练，在模型的第一轮训练中，为训练集中每张图像分配相同的权重进行随机采样，定义分布式数据加载器，从而达到能使用多张显卡进行分布式训练的目的，提升模型训练效率；

S41：将图像特征矩阵x和标签图像矩阵传入GPU；

S47：将图像特征矩阵x₁和S45得到的特征向量h₃相乘，更新图像特征矩阵x₁并残差连接，经过ReLU层计算后向模型主框架返回覆盖更新得到图像特征矩阵x₂；

L_total＝0.5L_CE+0.5L_Dice，

S7：模型训练结束之后进入测试环节，对训练好的模型使用测试集获取预测图像特征矩阵x_val的步骤与步骤S4至S5的训练过程一致，同时计算模型对每一个类别的识别精度IoU_i，i表示一个语义类；

S8：根据式：

计算每一个语义类的采样概率，其中n_total表示当前数据集中所有图像的数量，n_i表示第i个语义类涉及的图像数量，IoU_i表示当前模型对语义类i的识别精度，IoU分数是对象类别分割问题的标准性能度量，由于一张图片包含有多个语义类，定义一张图像被采样用于训练的概率为该图像所涉及所有语义类的概率平均值，按照每一张图像的采样概率，重新定义采样数据加载器对模型进行训练；