CN113435411B

CN113435411B - 一种基于改进DeepLabV3+的露天矿区土地利用识别方法

Info

Publication number: CN113435411B
Application number: CN202110843211.1A
Authority: CN
Inventors: 李军; 杜守航; 杨金中; 张成业; 邢江河; 郑慧玉; 李炜
Original assignee: China University of Mining and Technology Beijing CUMTB; China Aero Geophysical Survey and Remote Sensing Center for Natural Resources
Current assignee: China University of Mining and Technology Beijing CUMTB; China Aero Geophysical Survey and Remote Sensing Center for Natural Resources
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-06-17
Anticipated expiration: 2041-07-26
Also published as: CN113435411A

Abstract

本发明公开了一种基于改进DeepLabV3+的露天矿区土地利用识别方法，首先制作矿区不同土地利用类型样本数据集，构建DeepLabV3+网络模型，采用Xception作为基础网络架构提取低层和高层特征，其次通过改进的空间金字塔池化提取多尺度特征信息，然后将多尺度特征输入到注意力机制模块中，增强网络模型的分类能力；最后，聚合Xception低层特征与多尺度高层特征，通过卷积和上采样得到模型预测结果。本发明通过低层特征多尺度空间信息融合减少网络逐层卷积池化导致的边缘信息损失，提高了分割精度，通过引入空间注意力机制模块聚合多尺度上下文信息，增强网络模型的分类能力，通过占比加权的方法解决网络训练中样本不平衡的问题，提高了各类别用地的分类识别精度。

Description

一种基于改进DeepLabV3+的露天矿区土地利用识别方法

技术领域

本发明涉及遥感影像处理、深度学习语义分割领域，尤其涉及一种基于改进DeepLabV3+的露天矿区土地利用识别方法。

背景技术

露天矿的开采带来了一系列的生态问题，露天矿区的动态监测和统计对于区域生态环境保护具有重要意义，因此实现露天矿区不同用地类型的高效和准确识别是目前亟待解决的问题之一。传统的用地识别提取是通过外业调查或者影像人工勾绘的方式获取。随着遥感技术的快速发展，人们可以获取大量的高分辨率遥感对地观测数据，使得基于高分影像数据自动分类的方式逐渐替代了传统的人工方式，能够快速高效地应用于露天矿区不同用地类型的自动识别。

语义分割目的是对图像中的每一个像素进行分类，即实现像素级别的分类。传统的非深度学习方法通过提取人工特征作为视觉信息来进行影像分割，但是非深度学习方法受人工特征选取的限制较大，精度一直没有增加很多。卷积神经网络能够提取影像结构化的深度特征，极大提高了影像的分类精度。传统深度学习语义分割方法采用卷积神经网络模型实现逐像素的影像分类，但是卷积神经网络中连续的下采样池化导致特征图尺寸不断减小，丢失了图像的细节信息，往往对于一个影像块输出一个类别标签。全卷积神经网络(FCN，Fully Convolutional Networks)将全连接层替换为卷积层来输出一种空间域映射(反卷积)而非简单输出类别的概率，从而将图像分割问题转换为端对端的图像处理问题，奠定了深度学习语义分割技术的基本框架。现如今，越来越多的语义分割模型被提出，UNet、SegNet模型采用了编码器-解码器结构，编码器提取特征图像，解码器将特征图像恢复到原始尺寸大小。PSPNet采用空洞卷积，在参数不变的情况下，有效增加了卷积核的感受野大小。DeepLabV3+是目前精度最高的语义分割算法之一，其采用了空间金字塔池化模块，通过使用不同孔洞大小的卷积核对特征图进行卷积，捕获多尺度特征，同时采用编码器解码器结构补充图像细节信息。

但是，将DeepLabV3+网络应用于露天矿区土地利用语义分割中，面临三个问题：1)编解码结构恢复图像细节信息，但是下采样的过程仍然丢失了很多细节信息，不利于露天矿不同用地类型的高精度提取；2)虽然采用了不同扩张率的空间金字塔池化捕获多尺度上下文信息，但是仍然缺乏利用全局上下文信息的能力，从而限制了语义分割的效果；3)露天矿场景下不同用地类型之间的像素比例相差较大，如果使用相同的权重直接训练网络则会使网络倾向于将面积小的类别分类为占比大的类别。因此，需要对DeepLabV3+网络进行改进和优化，使其能够实现高精度的露天矿区不同土地利用类型的语义分割。

发明内容

针对现有技术存在的不足之处，本发明的目的在于提供一种基于改进DeepLabV3+的露天矿区土地利用识别方法，首先通过低层特征多尺度空间信息融合减少边缘信息损失，提高分割精度，其次通过引入注意力机制模块聚合多尺度上下文信息，筛选更有用的语义信息，增强网络模型的分类能力，最后采用占比加权的方法解决网络训练中样本不平衡的问题；通过上述方法来提高露天矿区不同土地利用类型的语义分割精度，满足实际应用需求。

本发明的目的通过下述技术方案实现：

一种基于改进DeepLabV3+的露天矿区土地利用识别方法，其方法如下：

A、制作露天矿区多类别用地样本数据集：

A1、采集露天矿区遥感影像数据并进行标注，标注的对象包括露天开采区、煤区、排土场、复垦区；

A2、将露天矿区遥感影像数据裁剪为500×500的影像块，将影像块随机分为训练数据和测试数据，将所有训练数据归集为训练数据集并存储，将所有测试数据归集为测试数据集并存储；

A3、对训练数据集中的训练数据进行数据增强处理，数据增强处理包括翻转、平移、尺度变化、对比度变化、高斯噪声处理，数据增强处理后的训练数据集与测试数据集构成露天矿区多类别用地样本数据集；

B、基于TensorFlow搭建DeepLabV3+网络模型；

B1、以Xception作为基础网络架构并输入露天矿区多类别用地样本数据集，通过Xception提取得到特征，特征包括低层特征和高层特征；

B2、将Xception提取到的高层特征输入到空间金字塔池化模块中得到特征信息集合及特征图；

B3、将特征图输入到注意力机制模块中并按空间维度与通道维度分别捕获空间维度与通道维度上的全局依赖关系，将空间维度与通道维度进行结果相加并输出特征图；

B4、将步骤B3的特征图与Xception提取的低层特征进行叠加处理并搭建DeepLabV3+网络模型；

C、利用训练数据集对网络模型进行训练；

C1、采用如下交叉熵损失函数并利用训练数据集对DeepLabV3+网络模型进行训练：

其中，S表示样本数量，K表示类别数，y_a，c表示样本a预测为类别c的概率，若样本a的真实类别等于c，则

否则

D、通过训练后的DeepLabV3+网络模型进行识别处理；

D1、将测试数据集输入到训练好的DeepLabV3+网络模型进行语义分割测试，获取语义分割结果；

D2、采用条件随机场模型进行优化处理，获取边缘更为精确的语义分割结果，并进行验证。

为了更好地实现本发明，本发明还包括：

E、输入露天矿区遥感影像数据并进行语义分割结果输出及展示。

优选地，本发明步骤B2的空间金字塔池化模块通过采用不同尺寸大小扩展率的带孔卷积来捕获不同尺度的感受野信息并捕获不同尺度的特征信息；将空间金字塔池化模块中3个3×3的带孔卷积进行二维分解，分解成3×1和1×3的卷积，扩展率分别为6，12，18；同时，全局平均池化和1×1卷积层被用于提取特征，空间金字塔池化模块经过空间金字塔池化后得到大小为32×32×1280的特征，然后将其输入到大小为1×1具有256个卷积核的卷积层中；空间金字塔池化模块得到特征图A∈R^C×H×W。

优选地，本发明步骤B3中的注意力机制模块嵌入编码解码网络结构，在编码解码网络结构中对特征图A∈R^C×H×W施加权重并优化特征图；

B31、注意力机制模块捕获空间维度：对于特征图A∈R^C×H×W，分别通过两个卷积层进行降维操作，得到两个新的特征图B和特征图C，{B，C}∈R^C×H×W；然后将两个新的特征图映射为R^C×N，其中N＝H×W；然后将C与B的转置进行相乘，通过Softmax函数计算空间注意力特征图S∈R^N×N：

其中，S_ji表示度量像素i和j间的依赖关系；

B32、注意力机制模块捕获通道维度：通道注意力特征图M∈R^C×C直接由原始特征图A得到；将特征图A重映射为R^C×N后与其转置相乘，最后经过Softmax后获得通道注意力特征图M：

其中，M_ji表示度量通道i和j间的依赖关系。

优选地，本发明步骤C1中在交叉熵损失函数中对于大样本类别设置较小的损失权重系数，对于小样本类别设置稍大的损失权重系数，计算方法为：

其中，w_i为图像中第i个类别的权重，N_i为图像中第i个类别的像素数，N为图像中像素总数，c为类别数。

优选地，本发明步骤D2条件随机场模型优化处理方法包括如下：

令G(V，E)表示图，V和E分别为节点和边，给定图G，条件随机场优化的目的是通过最小化能量函数为每一个节点i寻找最优的标签x_i：

其中θ_i(x_i)为数据项，表征标记x_i适合节点i的程度；θ_ij(x_i，x_j)为平滑项，用于衡量两个节点i和j的相似程度；x是所有的标记集合；

在此条件随机场框架中，影像像素视为节点，深度模型预测的像素类别概率p_i用于构建数据项，定义为：

θ_i(x_i)＝-logP(p_i)

平滑项θ_ij(x_i，x_j)定义为：

其中，f_i和f_j为像素i和j的光谱特征值；dist(i，j)为其欧氏距离；σ为尺度参数。能量函数构建后，可以通过α-expansion算法进行函数最小化，为每个像素获取最优的标签类别，得到最终的分类提取结果。

本发明较现有技术相比，具有以下优点及有益效果：

(1)本发明通过低层特征多尺度空间信息融合可以保留更多重要特征信息，减少网络逐层卷积池化导致的边缘信息损失，提高露天矿区土地利用分割精度；还通过引入空间注意力机制模块聚合多尺度上下文信息，筛选更有用的语义信息，抑制干扰信息，增强网络模型的分类能力；将注意力机制模块中3×3的卷积进行二维分解，分解成3×1和1×3的卷积，保持空洞率，有效减少模块计算量，加快网络运算速度；本发明还采用占比加权的方法解决网络训练中样本不平衡的问题，提高各类别用地的分类识别精度。

(2)本发明能够替代传统的外业调查或者影像人工勾绘等方式的露天矿区用地识别提取工作，能够快速高效地应用于露天矿区不同用地类型的自动识别，对于露天矿区的动态监测和统计具有重要意义。

附图说明

图1为本发明的流程示意图。

图2为本发明DeepLabV3+网络结构图。

图3为本发明优选的一种注意力机制模块在空间注意力方面的原理示意图；

图4为本发明优选的一种注意力机制模块在通道注意力方面的原理示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明：

实施例

如图1～图4所示，一种基于改进DeepLabV3+的露天矿区土地利用识别方法，其方法如下：

A、制作露天矿区多类别用地样本数据集：

A2、将露天矿区遥感影像数据裁剪为500×500(500×500可以按照像素大小划分，也可以按照尺寸划分，具体根据露天矿区遥感影像数据大小及有效数据范围而确定)的影像块，将影像块随机分为训练数据和测试数据，将所有训练数据归集为训练数据集并存储，将所有测试数据归集为测试数据集并存储；

A3、对训练数据集中的训练数据进行数据增强处理，数据增强处理包括翻转、平移、尺度变化、对比度变化、高斯噪声处理等，其可以增强模型的泛化能力，数据增强处理后的训练数据集与测试数据集构成露天矿区多类别用地样本数据集；

B、基于TensorFlow搭建DeepLabV3+网络模型；

B2、将Xception提取到的高层特征输入到空间金字塔池化模块(又称ASPP模块，或称空间金字塔池化ASPP，ASPP为AtrousSpatialPyramidPooling的英文简称)中得到特征信息集合及特征图；

本发明步骤B2可以采用如下方法：如图2所示，空间金字塔池化模块通过采用不同尺寸大小扩展率的带孔卷积来捕获不同尺度的感受野信息并捕获不同尺度的特征信息；参见图2，将空间金字塔池化模块中3个3×3的带孔卷积进行二维分解，分解成3×1和1×3的卷积，扩展率分别为6，12，18，这样可以减少模块计算量与加快网络运算速度；同时，全局平均池化和1×1卷积层被用于提取特征，空间金字塔池化模块经过空间金字塔池化后得到大小为32×32×1280的特征，然后将其输入到大小为1×1具有256个卷积核的卷积层中，可以减小通道数；空间金字塔池化模块得到特征图A∈R^C×H×W。

本发明步骤B3可以采用如下方法：参见图3、图4，步骤B3中的注意力机制模块嵌入编码解码网络结构，本发明将注意力机制嵌入编码解码网络结构，在解码区前，对编码区的输出特征图施加不同的权重，对网络更关注的区域施加更大的权重，达到对特征图进行优化的作用。注意力机制的引入可以提高网络的泛化能力和分类识别能力，本发明通过引入空间注意力机制和通道注意力机制去捕获空间和通道维度上的全局依赖关系。在编码解码网络结构中对特征图A∈R^C×H×W施加权重并优化特征图；

B31、注意力机制模块捕获空间维度(空间注意力)：参见图3，对于特征图A∈R^C ^×H×W，分别通过两个卷积层进行降维操作，得到两个新的特征图B和特征图C，{B，C}∈R^C×H×W；然后将两个新的特征图映射为R^C×N，其中N＝H×W；然后将C与B的转置进行相乘，通过Softmax函数计算空间注意力特征图S∈R^N×N：

其中，S_ji表示度量像素i和j间的依赖关系，B_j表示特征图B中像素j，C_i表示特征图C中像素i。特征图A经过卷积后得到特征图D∈R^C×H×W，接着重映射为R^C×N；S转置后与D相乘然后重映射为R^C×H×W，最后经过与尺度参数α相乘并与特征图A相加得到最后的特征图Z∈R^C ^×H×W，其中α初始化为0；Z中每个位置是所有位置的特征与原始特征的加权和，因此根据空间注意力图在全局视图中选择性地聚合上下文。

B32、注意力机制模块捕获通道维度(通道注意力)：参见图4，通道注意力特征图M∈R^C×C直接由原始特征图A得到；将特征图A重映射为R^C×N后与其转置相乘，最后经过Softmax后获得通道注意力特征图M：

其中，M_ji表示度量通道i和j间的依赖关系，A_j表示特征图A中通道j，A_i表示特征图A中通道i。M转置后与特征图A相乘并映射为R^C×H×W，最后经过与尺度参数β相乘并与特征图A相加得到最后的特征图Z∈月^C×H×W，同样的，β初始化为0；每个通道的最终特征是所有通道和原始特征的加权和，定义了通道之间的语义依赖关系；

B4、将步骤B3的特征图与Xception提取的低层特征进行叠加处理并搭建DeepLabV3+网络模型.

本实施例将输出的特征图与Xception低层特征叠加，通过卷积和上采样获取模型矿区土地利用识别预测结果。低层特征具有精细的边缘特征信息，而高层卷积提取的特征图尺寸变小，边缘信息丢失，此外单一尺度特征在上采样过程中不能精确恢复边缘信息，因此本发明引入多路低层特征，融合不同跃层的特征，从而提升分割精度。如图2所示，将模块2和模块3输出的两个不同尺度的低层特征分别进行2倍和4倍上采样，并与模块1的输出进行叠加，然后与编码端的输出特征图进行合并。将注意力机制输出的特征图采用64个具有3×3大小卷积核的卷积层进行微调，上采样4倍后与来自Xception的低层特征进行叠加，之后经过3×3的卷积核和4倍上采样得到与原图同样大小的预测结果图。本发明将不同尺度低层特征提取层的结果进行上采样和叠加，可以保留更多重要特征信息，减少网络逐层卷积池化丢失信息，提高分割精确度。

C、利用训练数据集对网络模型进行训练；

否则

最后本发明可以采用Adam方法进行优化求解，以获取较高的计算效率和较低的内存需求。

本发明步骤C1可以采用如下方法：步骤C1中在交叉熵损失函数中对于大样本类别设置较小的损失权重系数，对于小样本类别设置稍大的损失权重系数，这样可以解决不平衡的问题，计算方法为：

D、通过训练后的DeepLabV3+网络模型进行识别处理；

本发明步骤D2条件随机场模型优化处理方法包括如下：

θ_i(x_i)＝-logP(p_i)

平滑项θ_ij(x_i，x_j)定义为：

其中，f_i和f_j为像素i和j的光谱特征值；dist(i，j)为其欧氏距离；σ为尺度参数。能量函数构建后，通过α-expansion算法进行函数最小化，为每个像素获取最优的标签类别，得到最终的分类提取结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进DeepLabV3+的露天矿区土地利用识别方法，其特征在于：其方法如下：

A、制作露天矿区多类别用地样本数据集：

B、基于TensorFlow搭建DeepLabV3+网络模型；

步骤B2的空间金字塔池化模块通过采用不同尺寸大小扩展率的带孔卷积来捕获不同尺度的感受野信息并捕获不同尺度的特征信息；将空间金字塔池化模块中3个3×3的带孔卷积进行二维分解，分解成3×1和1×3的卷积，扩展率分别为6，12，18；同时，全局平均池化和1×1卷积层被用于提取特征，空间金字塔池化模块经过空间金字塔池化后得到大小为32×32×1280的特征，然后将其输入到大小为1×1具有256个卷积核的卷积层中；空间金字塔池化模块得到特征图A∈R^C×H×W；

C、利用训练数据集对网络模型进行训练；