CN111476170A

CN111476170A - 一种结合深度学习和随机森林的遥感影像语义分割方法

Info

Publication number: CN111476170A
Application number: CN202010272119.XA
Authority: CN
Inventors: 张佳鑫; 高博; 宫辉力; 陈蓓蓓; 朱琳; 刘园园; 李庆端; 王静
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-31

Abstract

本发明涉及一种结合深度学习和随机森林的遥感影像语义分割方法，包括以下步骤：先制作研究区的训练数据集，采用样本及样本标签作为训练数据集；建立全卷积神经网络模型，使用样本及样本标签训练该模型；使用全卷积神经网络模型提取研究区的深层特征；同时，提取研究区GF‑2影像的浅层特征；对深层特征和浅层特征进行多特征组合；采用随机森林进行语义分割；本发明通过制作数据集，使用到的影像波段少，易获取且通用性强，分割精度高；结合深度学习和随机森林，在方法创新上融合了浅层特征和深层特征，两者结合相互补充，弥补了单一方法的不足，在遥感影像语义分割上有较好的效果，有效提高分类精度，对水体、植被、不透水层的提取具有很好的效果。

Description

一种结合深度学习和随机森林的遥感影像语义分割方法

技术领域

本发明涉及遥感影像分类技术领域，具体地说是一种结合深度学习和随机森林的遥感影像语义分割方法。

背景技术

地物信息一直以来都是遥感影像中极为重要的信息。目前，遥感影像在分辨率方面有很大提升，高分遥感影像拥有丰富且精细的地物信息，地物的细节也更加清晰，为遥感影像中地物信息的提取提供了良好的研究基础，但同时也导致地物的结构比较复杂，干扰信息较难处理。

遥感图像的语义分割是图像的像素级分类，是遥感图像目标识别应用的一个重要研究方向，随着遥感技术的快速发展，高分辨率遥感卫星产生的遥感图像能够表现丰富的地物信息，进而有利于提取地物的复杂特征及识别过去难以识别的人造目标。语义分割在计算机视觉和遥感领域得到了广泛的研究。

目前，用于语义分割应用上的高分遥感影像的公开数据集相对贫乏，传统分割方式一般使用随机森林或纹理基元森林方法来构建用于语义分割的分类器，这类方法需要人工制作复制特征，鲁棒性差，难以满足大范围自动化作业需求，另外，随机森林方法在地物分类上主要是将影像的光谱、纹理、边缘、高程等属性进行叠加，只考虑到影像的浅层特征。

近年来，深度学习在多种高级计算机视觉任务中取得成功，深度学习模仿人脑组织中神经元的深层次结构，通过海量数据的训练自动获取特征信息，得到模型并作出相应的分析和判断。深度学习为海量遥感影像数据的分类识别等工作提供了行之有限的框架，逐步推动遥感影像处理领域的发展，并在目标检测、影像分类、参数提取等方面取得了很大进步，但目前深度学习下的卷积神经网络模型在图像语义分割应用上，虽然对输入图像的图幅没有限制，但分割结果缺少像素与像素之间的联系，分类结果图斑严重，对象整体性一般；在使用深度学习方法处理遥感影像语义分割问题上存在公开的高分辨率数据集贫乏，分割精度低、方法的通用性有限等问题。

如中国专利申请CN109255334A公开了一种基于深度学习语义分割网络的遥感影像地物分类方法，该方法首先对遥感影像中各类地物进行逐像素标注，构建遥感地物标注影像库作为训练标签；采用纹理、结构特征为基础构建多尺度特征图组的方法，将特征图组和原始影像合并作为深度学习网络的输入，除此之外根据deeplab算法设计了一种全卷积网络的改进网络结构，通过卷积与反卷积进行参数训练，最终对宽幅遥感图像进行重叠切分，分类后合并得到最终宽幅遥感影像地物分类结果。该发明尽管可以高效迅速地实现高分辨率遥感影像各种地物像素级分类，精简了传统的分类方法的复杂流程，但分割精度低、方法的通用性有限。

因此，如何提供一种结合深度学习和随机森林的遥感影像语义分割方法，以提高地表地物分类的精度，并提高方法的通用性，使其对水体、植被、不透水层的提取具有很好的效果，是目前本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种结合深度学习和随机森林的遥感影像语义分割方法，以提高地表地物分类的精度，并提高方法的通用性，使其对水体、植被、不透水层的提取具有很好的效果。

为了达到上述目的，本申请提供如下技术方案。

一种结合深度学习和随机森林的遥感影像语义分割方法，包括以下步骤：

101、制作研究区的训练数据集，采用样本及样本标签作为训练数据集；

102、先建立全卷积神经网络模型，再使用步骤101中的样本及样本标签训练该模型，并保存模型供使用；

103、使用步骤102中的全卷积神经网络模型提取研究区的特征层，即提取深层特征；

104、提取研究区GF-2影像的浅层特征，包括光谱特征、指数特征及纹理特征；

105、对步骤103提取的深层特征和步骤104提取的浅层特征进行多特征组合；

106、采用随机森林对步骤105组合后特征进行语义分割，即实现遥感影像语义分割。

优选地，所述步骤101中样本及样本标签的获取：先获取GF-2影像，将影像的红绿蓝波段合成，对合成影像裁剪为样本，裁剪规格为512*512，再进行标注，保存的数据为json文件，将json文件转换为dataset文件，此时的标签数据为8位深度的标签数据，最后为其赋予“真彩色”，转换为24位深度的样本标签文件。

优选地，所述步骤102中全卷积神经网络模型是在基于TensorFlow框架下对卷积神经网络模型基础上的改进，包括下采样层和上采样层；上采样和下采样的图像规格是一一对应的；

全卷积神经网络下采样层使用3*3卷积核进行5次卷积和池化；

上采样使用3*3的卷积核进行，采用卷积层取代卷积神经网络的全连接层，在上采样过程中，加入下采样层的卷积层，使上采样过程中包含全局特征和局部特征。

优选地，所述步骤103中提取深层特征是先获取研究区的GF-2影像，对红、绿、蓝波段合成，使用步骤102中保存的模型，加入上采样最后一层提取的程序，对研究区的合成影像提取使用该模型的深层特征。

优选地，所述全卷积神经网络模型使用SGD优化器对模型参数进行调整，所述SGD优化器运用如下公式指出参数优化的方向：

X_t+1＝X_t-η_tG_t

式中：X_t+1是参数下一步的位置；

X_t是参数此时的位置；

η_t是步长；

G_t满足其期望值等于其导数。

优选地，所述全卷积神经网络模型使用Softmax损失函数对模型回归进行监测，所述Softmax损失函数利用如下公式来确定参数偏离目标值的距离：

式中：L是损失；

S_j是Softmax的输出向量S的第j个值，表示的是这个样本属于第j个类别的概率；

y_j是这个样本第j个类别的标签值；

j的范围是1到类别数T。

优选地，所述步骤104中光谱特征是获取研究区的GF-2影像，提取多光谱数据的红、绿、蓝、近红4个波段；

指数特征包括归一化植被指数(NDVI)、归一化水体指数(NDWI)，计算公式如下：

NDVI＝(NIR-R)/(NIR+R)

NDWI＝(Green-NIR)/(NIR+R)

式中：NIR为近红外波段；

R为红波段；

Green为绿波段。

优选地，所述步骤104中纹理特征用来描述影像的局部重复的规则，弥补了全卷积神经网络模型的细节处理不敏感的不足；

纹理特征采用灰度共生矩阵统计分析出4个纹理特征，分别为方差、熵、相异性和角二阶矩。

优选地，所述步骤105中多特征组合是使用波段组合插件，将深层特征和浅层特征进行叠加，得到一幅包含23层波段的合成影像。

优选地，所述步骤106语义分割后，得到分类结果图，对分类结果图进行精度评价，得到精度评价表和混淆矩阵。

本发明所获得的有益技术效果如下：

1)本发明主要解决现有遥感影像地物分类所存在的缺陷，本发明通过制作训练数据集，使用到的影像波段少，易获取且通用性强，分割精度高；结合深度学习和随机森林，在方法创新上融合了浅层特征和深层特征，两者结合相互补充，弥补了单一方法的不足，在遥感影像语义分割上有较好的效果，能有效提高分类精度，对水体、植被、不透水层的提取有很好的效果；

2)本发明采用全卷积神经网络的深度学习方法，改进卷积神经网络的全连接层，用卷积层代替全连接层，模型对输入影像的规格不做强制要求，有利于提高遥感影像地物分类的高效性和通用性；

3)本发明采用随机森林方法，其在遥感影像提取地物利用类型应用上有较明显的优势，对属性包容性高，不需要将其输入属性进行归一化，并将浅层特征和深层特征进行融合，相互补充，有效提高遥感影像地物分类的精度；

4)本发明通过提取浅层特征，即光谱特征、指数特征和纹理特征，其中，指数特征有助于增强植被、水体属性特征，进而有效区分；纹理特征能够弥补全卷积神经网络模型的细节处理不敏感的不足，有利于提高结果的精细。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，从而可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下以本申请的较佳实施例并配合附图详细说明如后。

根据下文结合附图对本申请具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述及其他目的、优点和特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本公开一种实施例中结合深度学习和随机森林的遥感影像语义分割方法的流程示意图；

图2是本公开一种实施例中裁剪好的512*512图；

图3是本公开一种实施例中标注好的图；

图4是本公开一种实施例中转换为24位深度的样本标签图；

图5是本公开另一种实施例中结合深度学习和随机森林的遥感影像语义分割方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外，为了清楚和简洁，实施例中省略了对已知功能和构造的描述。

应该理解，说明书通篇中提到的“一个实施例”或“本实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“一个实施例”或“本实施例”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

此外，本申请可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身并不指示所讨论各种实施例和/或设置之间的关系。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

本文中术语“至少一种”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B的至少一种，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含。

实施例1

如附图1所示，一种结合深度学习和随机森林的遥感影像语义分割方法，包括以下步骤：

101、制作研究区的训练数据集，采用样本及样本标签作为训练数据集。

样本及样本标签的获取：先获取GF-2影像，将影像的红绿蓝波段合成，对合成影像裁剪为样本，裁剪规格为512*512，如附图2所示，在labelme软件上进行标注，如附图3所示，保存的数据为json文件，将json文件转换为dataset文件，此时的标签数据为8位深度的标签数据，最后为其赋予“真彩色”，转换为24位深度的样本标签文件，如附图4所示。

研究区的训练数据集采用512*512*24位深度的样本及样本标签作为训练数据集的规格。

需要说明的是，GF-2影像为本领域技术人员公知常识，部分从中国国家航天局高分卫星16m数据共享服务平台(CNSA-GEO平台)可以下载获得。

102、先建立全卷积神经网络模型，再使用步骤101中的样本及样本标签训练该模型，并保存模型供使用。

全卷积神经网络模型是在基于TensorFlow框架下对卷积神经网络模型基础上的改进，包括下采样层和上采样层；上采样和下采样的图像规格是一一对应的。

全卷积神经网络下采样层使用3*3卷积核进行5次卷积和池化，池化方法为最大池化。

所述全卷积神经网络模型使用SGD优化器对模型参数进行调整，所述SGD优化器运用如下公式(1)指出参数优化的方向：

X_t+1＝X_t-η_tG_t (1)

式中：X_t+1是参数下一步的位置；

X_t是参数此时的位置；

η_t是步长；

G_t满足其期望值等于其导数。

所述全卷积神经网络模型使用Softmax损失函数对模型回归进行监测，所述Softmax损失函数利用如下公式(2)来确定参数偏离目标值的距离：

式中：L是损失；

y_j是这个样本第j个类别的标签值；

j的范围是1到类别数T。

103、使用步骤102中的全卷积神经网络模型提取研究区的特征层，即提取深层特征。

提取深层特征是先获取研究区的GF-2影像，对红、绿、蓝波段合成，使用步骤102中保存的模型，加入上采样最后一层提取的程序，对研究区的合成影像提取使用该模型的深层特征，并使其可视化。

104、提取研究区GF-2影像的浅层特征，包括光谱特征、指数特征及纹理特征。

获取研究区的GF-2影像，提取光谱特征，即多光谱数据的红、绿、蓝、近红4个波段。

指数特征包括归一化植被指数(NDVI)、归一化水体指数(NDWI)。

ENVI软件对研究区GF-2影像基于公式(3)和公式(4)计算归一化植被指数(NDVI)、归一化水体指数(NDWI)，公式如下：

NDVI＝(NIR-R)/(NIR+R) (3)

NDWI＝(Green-NIR)/(NIR+R) (4)

式中：NIR为近红外波段；

R为红波段；

Green为绿波段。

在GF-2影像上，近红外波段为第4波段，红波段为第3波段，绿波段为第2波段。

归一化植被指数(NDVI)有助于增强植被属性特征，区分植被和非植被；归一化水体指数(NDWI)有助于增强水体属性特征，区分水体和非水体。

纹理特征用来描述影像的局部重复的规则，弥补了全卷积神经网络模型的细节处理不敏感的不足。

方差反映影像灰度变化程度，熵表达了影像的复杂程度，相异性描述局部的差异程度，角二阶矩是灰度分布均匀程度的度量。

105、对步骤103提取的深层特征和步骤104提取的浅层特征进行多特征组合。

多特征组合是使用ENVI的波段组合插件，将深层特征和浅层特征进行叠加，即将深层特征、多光谱数据的4个波段、归一化植被指数、归一化水体指数、方差、熵、相异性、角二阶矩叠加，得到一幅包含23层波段的合成影像，即将多个影像合为一幅影像。

106、采用随机森林对步骤105对组合后特征进行语义分割，即实现遥感影像语义分割。

在ENVI5.3及以上版本安装随机森林插件，在组合后的影像上选取一定样本，使用随机森林插件即可得到语义分割结果。

其中，随机森林插件仅支持在ENVI5.3及以上版本可运行，随机森林是一个由一组树状分类器组成的分类器，每个树状分类器都是独立的同分布随机向量，每棵树对输入项的类进行一次投票。

语义分割后，得到分类结果图，对分类结果图进行精度评价，得到精度评价表和混淆矩阵。

实施例2

基于上述实施例1，如附图5所示，以某GF-2光学影像数据为数据源，作研究区的数据。采用上述实施例1中的样本及样本标签作为训练数据集。

使用Python语言编写基于TensorFlow框架的全卷积神经网络模型，使用上述样本及样本标签训练模型，用训练出的模型测试研究区的数据，提取其深层特征，并对其可视化。

使用ENVI5.3软件Band Math功能，依据公式(3)和公式(4)提取GF-2影像数据的归一化植被指数和归一化水体指数；Band Math功能是对每个像素点的像素值进行数值运算。

使用ENVI5.3软件Co-occurrence Measures功能，提取GF-2影像各波段的方差、熵、相异性和角二阶矩4个纹理特征；ENVI软件Co-occurrence Measures功能实质上是基于二阶概率统计的滤波运算；用一个灰色调空间相关性矩阵来计算纹理值，一个相对频率矩阵，即像元值在两个邻近的由特定的距离和方向分开的处理窗口中的出现频率，该矩阵显示了一个像元和它的特定邻域之间关系的发生数。

使用ENVI5.3软件对上述获得的深层特征、光谱特征、纹理特征以及各波段特征进行波段组合，得到一幅包含23层波段的合成影像。

对合成影像均匀选取感兴趣区，使用ENVI5.3软件Random Forests插件，基于基尼指数的特征选择方法，采用100个决策树对融合影像进行分类，得出分类结果图。

先采用ENVI5.3软件ConfusionMatrix Using Ground Truth ROIs功能得出精度混淆矩阵，如表1。

表1混淆矩阵

	Impervious	Forest	Waterbody	Bareland	Total
						Unclassified	18	904	0	7	929
Impervious	1603	0	0	21	1624
						Forest	1	16416	0	3	16420
Waterbody	45	0	57313	0	57358
						Bareland	4	0	0	270	274
Total	1671	17320	57313	301	76605

精度评价采用ENVI5.3软件Confusion Matrix Using Ground Truth ROIs功能实现，如表2。

表2精度评价

其中，总体精度是分类正确的样本个数占所有样本个数的比例。

Kappa系数是把所有地表真实像元总数乘以混淆矩阵对角线的和，再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果，再除以总像元数的平方差减去某一类中地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果。Kappa系数的范围是-1到1，Kappa<0，说明分类结果和真实地物很不一致，不具有实际意义。Kappa系数在0到0.2之间指分类结果和真实地物一致性非常低，在0.2到0.4之间指分类结果和真实地物一致性一般，在0.4到0.6之间指分类结果和真实地物一致性中等，在0.6到0.8之间指分类结果和真实地物一致性很高，在0.8到1之间指分类结果和真实地物一致性极高。

其中，制图精度是样本区域范围，分类结果正确的像元占样本总量的比例。

用户精度是样本区域范围，某类别被正确分类的像素数占某类别总像素数的比例。

由表2可知，得出分类的总体精度达98.6907％，Kappa系数为0.9665。制图精度由高到低的依次顺序为水体、不透水层、植被和裸地，其中水体的制图精度为100％。用户精度由高到低的依次顺序为植被、水体、不透水层和裸地，其中植被的用户精度为99.98％。

上述方法在遥感影像语义分割上有较好的效果，分类精度高，对水体、植被、不透水层的提取有很好的效果。

上述方法结合深度学习和随机森林，在方法创新上融合了浅层特征和深层特征，两者结合相互补充，弥补了单一方法的不足；通过制作训练数据集，使用到的影像波段少，易获取且通用性强，分割精度高。

以上所述仅为本发明的优选实施例而已，其并非因此限制本发明的保护范围，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，通过常规的替代或者能够实现相同的功能在不脱离本发明的原理和精神的情况下对这些实施例进行变化、修改、替换、整合和参数变更均落入本发明的保护范围内。

Claims

1.一种结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤101中样本及样本标签的获取：先获取GF-2影像，将影像的红绿蓝波段合成，对合成影像裁剪为样本，裁剪规格为512*512，再进行标注，保存的数据为json文件，将json文件转换为dataset文件，此时的标签数据为8位深度的标签数据，最后为其赋予“真彩色”，转换为24位深度的样本标签文件。

3.根据权利要求2所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤102中全卷积神经网络模型是在基于TensorFlow框架下对卷积神经网络模型基础上的改进，包括下采样层和上采样层；上采样和下采样的图像规格是一一对应的；

全卷积神经网络下采样层使用3*3卷积核进行5次卷积和池化；

4.根据权利要求3所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤103中提取深层特征是先获取研究区的GF-2影像，对红、绿、蓝波段合成，使用步骤102中保存的模型，加入上采样最后一层提取的程序，对研究区的合成影像提取使用该模型的深层特征。

5.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述全卷积神经网络模型使用SGD优化器对模型参数进行调整，所述SGD优化器运用如下公式指出参数优化的方向：

X_t+1＝X_t-η_tG_t

式中：X_t+1是参数下一步的位置；

X_t是参数此时的位置；

η_t是步长；

G_t满足其期望值等于其导数。

6.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述全卷积神经网络模型使用Softmax损失函数对模型回归进行监测，所述Softmax损失函数利用如下公式来确定参数偏离目标值的距离：

式中：L是损失；

y_j是这个样本第j个类别的标签值；

j的范围是1到类别数T。

7.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤104中光谱特征是获取研究区的GF-2影像，提取多光谱数据的红、绿、蓝、近红4个波段；

NDVI＝(NIR-R)/(NIR+R)

NDWI＝(Green-NIR)/(NIR+R)

式中：NIR为近红外波段；

R为红波段；

Green为绿波段。

8.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤104中纹理特征用来描述影像的局部重复的规则，弥补了全卷积神经网络模型的细节处理不敏感的不足；

9.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤105中多特征组合是使用波段组合插件，将深层特征和浅层特征进行叠加，得到一幅包含23层波段的合成影像。

10.根据权利要求1-4任一项所述的结合深度学习和随机森林的遥感影像语义分割方法，其特征在于，所述步骤106语义分割后，得到分类结果图，对分类结果图进行精度评价，得到精度评价表和混淆矩阵。