CN113963271A

CN113963271A - 用于从遥感图像中识别不透水面的模型及训练模型的方法

Info

Publication number: CN113963271A
Application number: CN202111239182.4A
Authority: CN
Inventors: 万晓华; 杨子豪; 张法; 谭光明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-21

Abstract

本发明提供一种用于从遥感图像中识别不透水面的模型，所述模型包括编码器、与编码器输出相连的解码器、与解码器输出相连的分类器，其中：所述编码器包括多层逐层加深的特征提取模块，用于逐层提取输入遥感图像中的包含空间信息的不透水面特征，且相邻特征提取模块之间通过池化层相连；所述解码器包括多层与编码器特征提取模块逐层对应的上采样模块，用于逐层上采样遥感图像中的不透水面特征，且相邻上采样模块之间通过反卷积层相连；其中，所述解码器中的除底层外的每一层上采样模块均配置有注意力模块，所述注意力模块用于将当前上采样模块上一层级输出的特征、与当前上采样模块同级的特征提取模块输出的包含空间信息的特征进行处理后得到的特征并输入当前上采样模块；所述分类器用于根据解码器最终的输出特征对输入遥感图像中的不透水面类别进行分类得到分类结果。

Description

用于从遥感图像中识别不透水面的模型及训练模型的方法

技术领域

本发明涉及遥感图像领域，具体来说，涉及一种针对遥感图像中城市区域不透水面的识别，更具体地说，涉及一种用于从遥感图像中识别不透水面的模型以及训练模型的方法。

背景技术

本申请中不透水面是指具有不透水性的人工材料硬质表面，包括了多种目标，如屋顶，停车场以及水泥道路等等。不透水面的识别技术均是利用遥感影像进行地球表面特征的分析与处理，从而得到高精度的不透水面数据。高精度的不透水面数据有着多种重要的用途，包括社会经济研究，如人口分布估计、城市增长度量等，以及城市生态环境的研究，如城市发展规划、区域高品质发展等。

现有的不透水面识别技术可以分为两类：基于传统方法的不透水面识别方法和基于深度学习的不透水面识别方法。

其中，传统方法又可以分为人工识别方法和基于人工设计的规则进行识别的方法。早期的人工方法主要通过野外现场调查以及数字化地图来获得不透水面，虽然能够获得比较准确的结果，但是这种方法效率很低而且受经验影响较大；后来出现了多种通过人工设计与利用不同分类规则的方法，从遥感影像中对不透水面进行识别，如NDVI归一化植被指数、通过不同地物间光谱反射强弱建立不透水面指数NDISI以及利用指数模型法、决策树、支持向量机等方法对不透水面进行识别，然而这些方法主要利用了遥感图像的光谱信息，没有考虑到空间细节信息，往往只对特定的遥感数据类型有效，存在着鲁棒性低的缺点。

近些年，基于深度学习的不透水面识别方法开始出现，并得到了快速的发展。目前出现了基于分割网络进行不透水面识别的模型，但是这些模型存在不能很好地对不透水面较大的类内差异问题进行处理。例如，ResNet50利用短连接保证了网络在加深的过程中不会出现网络性能退化问题，但是对于不透水面类内差异大的问题没有针对性的方法；Setr网络将图像看作序列进行处理，利用Transformer对序列进行特征处理，但是其参数量和运算量巨大，难以训练，同时在处理包含了多种类别目标的不透水面类别时没有展现出与参数量对应的效果；Deeplabv3+使用了空洞卷积来扩大感受野，捕捉更多的上下文信息，然而在预测特征图直接采用双线性上采样16倍到期望的尺寸，损失了大量的细节信息；NestUnet在Unet的跳跃连接的路径上添加了卷积层，同时采用了密集的跳跃连接提升特征的识别效果和编码器与解码器部分的语义差异，但是在实际分割过程中，大物体边缘信息和小物体信息会被多次的下采样与上采样损失掉。

综上所述，现有技术存在以下两个方面的问题：

首先，早期的不透水面识别方法通过人力识别，工作量大，耗时长；人工设计分类规则的不透水面识别方法往往只对特定的遥感数据类型有效，鲁棒性低，同时存在针对复杂情况下识别精度低的问题。

其次，现有的基于深度学习的不透水面识别效果较差，往往没有考虑类内差异大，类别不平衡等问题，造成不透水面的识别精度难以提升，且容易导致不透水面的识别结果中出现将透水面识别成不透水面或是不透水面识别不完全的情况，识别精度难以提升。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种用于从遥感图像中识别不透水面的模型以及训练模型的方法。

根据本发明的第一方面，本发明提供一种用于从遥感图像中识别不透水面的模型，所述模型包括编码器、与编码器输出相连的解码器、与解码器输出相连的分类器，其中：所述编码器包括多层逐层加深的特征提取模块，用于逐层提取输入遥感图像中的包含空间信息的不透水面特征，且相邻特征提取模块之间通过池化层相连；所述解码器包括多层与编码器特征提取模块逐层对应的上采样模块，用于逐层上采样遥感图像中的不透水面特征，且相邻上采样模块之间通过反卷积层相连；其中，所述解码器中的除底层外的每一层上采样模块均配置有注意力模块，所述注意力模块用于将当前上采样模块上一层级输出的特征、与当前上采样模块同级的特征提取模块输出的包含空间信息的特征进行处理后得到的特征并输入当前上采样模块；所述分类器用于根据解码器最终的输出特征对输入遥感图像中的不透水面类别进行分类得到分类结果。

优选的，所述编码器包括5层逐层加深的特征提取模块，上一级特征提取模块的输出特征图作为下一级特征提取模块的输入，其中，所述每层特征模块包括多个带有短链接的堆叠残差模块。在本发明的一些实施例中，所述每层特征模块包括2个带有短链接的堆叠残差模块，所述每个堆叠残差模块包括多个带有短链接的残差模块。优选的，所述每个堆叠残差模块包括3组带有短链接的残差模块。

优选的，与编码器一致，所述解码器包括5层上采样模块，上一层上采样模块的输出、本层对应注意力模块的输出是本层上采样模块的输入，其中，所述每层上采样模块包括与特征提取模块同等数量的多个带有短链接的堆叠残差模块，相邻上采样模块之间配置有一个反卷积层。优选的，所述每个上采样模块包括2个带有短链接的堆叠残差模块，所述每个堆叠残差模块包括多组带有短链接的残差模块。优选的，所述每个堆叠残差模块包括3组带有短链接的残差模块。

在本发明的一些实施例中，所述分类器为Sigmoid，所述Sigmoid根据预设的阈值对解码器最终的输出特征确定输入遥感图像的分类，其中，所述预设的阈值根据具体应用场景确定。

根据本发明的第二方面，提供一种训练本发明第一方面所述模型的方法，包括：S1、获取目标场景遥感图像数据以及针对目标场景遥感图像数据的不透水面分类标签；S2、按照预设的尺寸将遥感图像数据进行裁剪，根据分类标签对裁剪后的图像进行标注获得标注数据集，并将标注数据集划分为训练集、验证集和测试集；S3、用训练集训练模型至收敛。

优选的，在所述步骤S2中，将遥感图像数据裁剪为256*256的小图后对其进行标注，并将标注数据集中的小图随机打乱。

优选的，在所述步骤S3中，对模型进行多轮训练直至完成预设轮数的训练或在连续5轮训练后模型在验证集上的效果无提升时结束训练。在本发明的一些实施例中，采用随机梯度下降方法优化模型参数，损失函数采用focal loss，学习率初始值设置为0.002，权重衰减设置为0.00001。

与现有技术相比，本发明的优点在于：第一，本发明通过在编码器阶段加入了具有多个卷积的堆叠残差模块作为识别特征的基本模块，多个模块通过池化层连接，这样可以在保证获得足够多上下文信息的同时，避免网络的梯度爆炸和梯度消失的问题，并且这种设计可以很方便的令后边的部分使用具有空间细节的低级特征。因此本发明可以既保证获得足够多的上下文信息，同时保证了在分辨率降低的过程中保留了空间细节信息，从而可以改善类内差异大的不透水面识别效果。第二，本发明在解码阶段，利用从编码阶段得到的保有空间细节的特征图补充空间细节，提升插值过程中的空间精度，增加对类内差异性大的不透水面的识别效果。第三，本发明通过加入注意力门的机制，可以帮助解码阶段在上采样中获得抑制不相关区域的特征图，提高不透水面区域的特征的权重，从而改善类内差异大导致的识别不精确的问题，提高总体的不透水面识别精度。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的网络模型框架示意图；

图2为根据本发明实施例的网络模型结构示意图；

图3为根据本发明实施例的堆叠残差模块结构示意图；

图4为根据本发明实施例的单残差模块结构示意图；

图5为根据本发明实施例的注意力模块结构示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

发明人在对城市不透水面识别的方法进行研究时，发现现有的方法通常没有考虑到不透水面的类内差异大以及类别不平衡等问题，这些存在的问题对识别效果有很大的影响，导致效果不佳。不透水面包含的目标类型丰富多样，类内差异大，现有方法不能很好地对所有种类的目标做到很好的识别，因此影响了整体的识别效果。为此，本发明提供一种用于从遥感图像中识别不透水面的模型来解决上述问题，引入卷积神经网络和注意力机制，本发明通过逐层加深网络，扩大网络的感受野来获取更多的上下文信息，同时保证网络不会因为网络的加深出现梯度消失、梯度爆炸等问题，并保留逐层识别特征过程中的特征图，因为这些特征图中保留着空间细节，通过引入注意力机制将包含空间细节的特征图与低分辨率的高级特征图进行适当的融合以补充空间细节，提高目标区域的权重，以提高模型对同属于不透水面类别的不同种类的目标的识别精度，改善因为内类差异大导致的识别效果差的问题。

本发明的目的在于解决传统方法识别不透水面的方法耗时长，同时为了解决由不透水面多样性、类内差异大、类别不均衡等问题导致的不透水面识别精度问题，提供一种基于卷积神经网络与注意力机制的高分辨率遥感图像城市不透水面识别方法，以编码器-解码器结构为基础，结合特征识别能力较强的骨干网络与注意力机制实现城市不透水面的快速高精度识别。本发明的网络模型的编码器可以逐层识别不同层次的高级特征，扩大感受野，获取更多的上下文信息，从而加强对类内差异的区分能力。同时每个层次的特征可以在注意力模块的作用下为解码器中的反卷积后的特征提供指导，加强关注区域的表达，提升整体的精度。

下面结合附图详细说明本发明。

首先，介绍一下本发明的模型框架：

如图1所示，本发明的用于从遥感图像中识别不透水面的模型采用编码器-解码器结构，编码器包含多层逐层加深的特征提取模块，相邻特征提取模块之间通过最大池化层相连；解码器包含与编码器对应的多层上采样模块，相邻上采样模块之间通过反卷积层相连，且除底层上采样模块之外，每层上采样模块均配置有注意力模块，所述注意力模块用于融合前一层上采样模块输出的特征和同层特征提取模块输出的特征。

根据本发明的一个实施例，编码器的特征提取模块采用带有短链接的堆叠残差模块识别输入遥感图像中不透水面的特征，每个特征提取模块对应一个级别的特征，其中，每个特征提取模块包括多个带有短链接的堆叠残差模块，每个堆叠残差模块包括多组带有短链接的残差模块。解码器的上采样模块采用与编码器对应的层级，每个上采样模块也采用多个带有短链接的堆叠残差模块对前一层识别出的高级特征图进行上采样，并融合来自注意力模块的包含有空间细节的特征图，相邻上采样模块之间通过反卷积层相连。

根据本发明的一个实施例，为了加深网络深度、提高模型的特征识别能力、获取更多的上下文信息，如图2所示，编码器部分采用5层特征提取模块相连，且特征提取模块之间采用最大池化层相连。根据本发明的一个实施例，每个特征提取模块内使用两个带有短链接的堆叠残差模块。每个层次中对该层次的输入特征图经过两个堆叠残差模块处理后，再通过一个最大池化层处理后，进入后一个层次当作后一个层次的输入特征图，在最后一层即第五层中，不再进行最大池化操作。根据本发明的一个实施例，如图3所示，每个堆叠残差模块内使用三组带有短链接的残差卷积模块串联组成，同时加入一个短链接操作，将未经过三个残差模块的特征图与经过三个残差模块处理的特征图进行叠加。根据本发明的一个实施例，每组残差模块(也叫残差卷积网络)中包含了两组卷积层、BN层以及激活函数层，其中，优选的，如图4所示，第一个卷积块由卷积核大小3×3、步长为1、填充为1的卷积层加上批归一化BN以及ReLU激活函数组成，第二个卷积块仅包含卷积核大小3×3、步长为1、填充为1的卷积层，两个卷积块中的卷积层的通道数均为32，同时加入一个短链接操作，将经过两个卷积块处理前的特征图与经过卷积块之后的特征图进行叠加后经过批归一化层和ReLU激活函数处理。残差卷积网络是神经网络领域常见的能够通过增加相当的深度来提高准确率的网络，此处不再详细赘述。本发明通过在堆叠残差模块中采用短链接，能够有效的避免网络加深的过程中可能会出现的梯度消失的问题，保证特征识别性能的稳步提升；同时相邻特征识别模块之间有一层最大池化层保证减少特征图的分辨率，提高感受野。

通过上述实施例，本发明采用的逐层加深的特征提取模块组成的编码器能够很好的识别遥感图像中不透水面的特征并获得上下文信息。逐层加深的编码器获得分辨率逐渐减小的特征图，如图2所示，输入256*256的城市遥感图像，经过5层特征提取模块后最终获得16*16的特征，分辨率的减小带来了空间细节的丢失。因此，为了解决这一问题，本发明在解码器中引入空间注意力机制，在解码器的上采样模块输入之前加入注意力模块来编码每一层特征识别模块的中间结果来补充丢失的空间细节。如图2所示，解码器中的上采样模块逐层对前一层识别出的高级特征进行上采样，并在解码器的第四层至第一层的上采样模块输入之前引入注意力模块，所述注意力模块通过处理同层特征提取模块提供的包含空间细节的特征图、前一层上采样模块输出的特征之后输入当前层的上采样模块，每一层上采样模块都将同级的编码器部分的特征图和解码器前一层经过注意力模块得到的特征图、与解码器当前层一层反卷积得到的特征图进行叠加、将叠加后的特征图经过两个堆叠残差模块的处理后，作为后一层使用的特征图。根据本发明的一个实施例，注意力模块包括三组卷积层、ReLU、Sigmoid和重采样模块；优选的，如图5所示，图5中的x_s为来自编码器某一层次的特征图，x_u为来自解码器部分当前层前一层次的特征图，两者分别经过1×1卷积层的处理，变成通道数为1的特征图，接着经过ReLU激活函数，之后经过1×1卷积的处理变为x_u的通道数，之后再经过Sigmoid层调整权重范围，最后重采样后得到和x_u同样大小的权重图后与x_u相乘得到最终的输出特征图。解码器逐层加深的结构，能够在解码过程中融合不同尺度的空间细节信息完善上下文信息，提高插值过程的空间精度，这样能够更有效地增加对不透水面的类内区分能力，同时，引入的注意力模块能够改善在上述方法得到的结果中仍然存在细节部分分类模糊无法清晰准确地区分以及类别不均衡的问题以提高准确度；本发明使用注意力模块作为对编码器与解码器特征图的处理器，在上采样过程中每个与编码器的空间细节融合的部分加入了注意力门帮助编码器在上采样过程中的特征融合更好地抑制不相关特征，使网络可以更好地关注目标特征。

根据本发明的一个实施例，分类器为一个Sigmoid函数，在最终的特征图经过Sigmoid函数处理后，根据预设的阈值决定哪部分是目标的区域，形成不透水面识别结果。其中，预设的阈值根据应用场景确定，不同的应用场景对应的不透水面的特征不一样，阈值设定也不一样。

通过上述实施例的描述可知，本发明的模型能够获得足够多的上下文信息，保证在分辨率降低过程中保留空间细节信息，从而改善类内差异大的不透水面识别效果。

众所周知，每一种深度学习的模型在具体应用之前都需要经过训练才能使用，由于具体的神经网络训练过程均是现有的手段，此处不再赘述，以下仅对训练的数据集处理、损失函数的设计以及阈值的设定进行说明。

根据本发明的一个示例，使用哨兵二号的南非某地区的遥感图像数据以及对应的分类标签，所使用的遥感图像共两张，每一张大小为10060×7214，包含RGB、近红外、短波红外等共16个波段。由于原始图像较大，该示例将图片裁剪为256×256的小图方便训练，然后对裁剪后的小图采用分类标签标注后随机打乱组成数据集，并按照7：2：1的比例分配训练集、验证集和测试集。

根据本发明的一个实施例，本发明使用随机梯度下降来优化模型；loss函数使用focal loss；学习率初始设为0.002，并设置0.00001的权重衰减，训练的轮次设置为100。对模型进行多轮训练直至完成预设轮数的训练或在连续5轮训练后模型在验证集上的效果无提升时结束训练。

同时，该示例采用Overall Accuracy(OA)、Recall(R)、Precision(P)、F1-score(F1)、MIoU来评估模型在验证集和测试集上的效果。其中，F1和MIoU的通过如下方式计算:

k为类别数数

其中TP、FP和FN分别表示真阳性、假阳性和假阴性的个数。P表示精确率，R表示召回率。

为了进一步说明本发明的效果，测试了采用现有技术的方法ResNet50、Setr、Deeplabv3+、nestUnet++以及本发明的方法在测试集上的效果，性能对比如表1所示。

表1性能对比

方法	准确率	精确率	召回率	F1分数	mIoU
						ResNet50	0.8801	0.7446	0.7419	0.7432	0.5914
Setr	0.8871	0.7611	0.7543	0.7576	0.6098
						Deeplabv3+	0.9077	0.8674	0.7145	0.7836	0.6442
NestUnet	0.9271	0.8159	0.9424	0.8746	0.7771
						本发明	0.9455	0.8949	0.8689	0.8817	0.7885

从表1可以看出，本发明的模型整体上的准确率、精确率、模型准确度等均优于其他现有方法。

与现有的基于深度学习的遥感图像不透水面识别方法相比，本发明具有以下有益效果：第一，本发明通过在编码器阶段加入了具有多个卷积的堆叠残差模块作为识别特征的基本模块，多个模块通过池化层连接，这样可以在保证获得足够多上下文信息的同时，避免网络的梯度爆炸和梯度消失的问题，并且这种设计可以很方便的令后边的部分使用具有空间细节的低级特征。因此本发明可以既保证获得足够多的上下文信息，同时保证了在分辨率降低的过程中保留了空间细节信息，从而可以改善类内差异大的不透水面识别效果。第二，本发明在解码阶段，利用从编码阶段得到的保有空间细节的特征图补充空间细节，提升插值过程中的空间精度，增加对类内差异性大的不透水面的识别效果。第三，本发明通过加入注意力门的机制，可以帮助解码阶段在上采样中获得抑制不相关区域的特征图，提高不透水面区域的特征的权重，从而改善类内差异大导致的识别不精确的问题，提高总体的不透水面识别精度。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于从遥感图像中识别不透水面的模型，所述模型包括编码器、与编码器输出相连的解码器、与解码器输出相连的分类器，其中：

所述编码器包括多层逐层加深的特征提取模块，用于逐层提取输入的遥感图像中包含空间信息的不透水面特征，相邻所述特征提取模块之间通过池化层相连；

所述解码器包括多层与编码器特征提取模块逐层对应的上采样模块，用于逐层上采样遥感图像中的不透水面特征，且相邻所述上采样模块之间通过反卷积层相连；其中，所述解码器中的除底层外的每一层上采样模块均配置有注意力模块，所述注意力模块用于将当前上采样模块的前一层级采样模块输出的特征、与当前上采样模块同级的特征提取模块输出的包含空间信息的特征进行处理后输入当前上采样模块；

所述分类器用于根据解码器最终的输出特征对输入遥感图像中的不透水面类别进行分类。

2.根据权利要求1所述的模型，其特征在于，所述编码器包括5层逐层加深的特征提取模块，前一层特征提取模块的输出特征图作为后一层特征提取模块的输入，其中，所述每层特征模块包括多个带有短链接的堆叠残差模块。

3.根据权利要求2所述的模型，其特征在于，所述每层特征模块包括2个堆叠残差模块，所述每个堆叠残差模块包括多组带有短链接的残差模块。

4.根据权利要求3所述的模型，其特征在于，所述解码器包括5层上采样模块，前一层上采样模块的输出、本层对应注意力模块的输出是本层上采样模块的输入，其中，所述每层上采样模块包括与特征提取模块同等数量的多个带有短链接的堆叠残差模块，相邻上采样模块之间配置有一个反卷积层。

5.根据权利要求4所述的模型，其特征在于，所述每个上采样模块包括2个堆叠残差模块，所述每个堆叠残差模块包括多组带有短链接的残差模块。

6.根据权利要求5所述的模型，其特征在于，所述每个堆叠残差模块包括3组带有短链接的残差模块。

7.根据权利要求1-6任一所述的模型，其特征在于，所述分类器为Sigmoid，用于根据预设的阈值对解码器最终的输出特征确定输入遥感图像的分类，其中，所述预设的阈值根据具体应用场景确定。

8.一种训练如权利要求1-7任一所述模型的方法，其特征在于，所述方法包括：

S1、获取目标场景遥感图像数据以及针对目标场景遥感图像数据的不透水面分类标签；

S2、按照预设的尺寸将遥感图像数据进行裁剪，根据分类标签对裁剪后的图像进行标注获得样本集；

S3、用样本集训练模型至收敛。

9.根据权利要求8所述的方法，其特征在于，在所述步骤S2中，将遥感图像数据裁剪为256*256的小图后对其进行标注。

10.根据权利要求8所述的方法，其特征在于，在所述步骤S3中，

对模型进行多轮训练直至完成预设轮数的训练或在连续5轮训练后模型在验证集上的效果无提升时结束训练。

11.根据权利要求8所述的方法，其特征在于，在所述步骤S3中，采用随机梯度下降方法优化模型参数，损失函数采用focal loss，学习率初始值设置为0.002，权重衰减设置为0.00001。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求8至11任一所述方法的步骤。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求8至11中任一项所述方法的步骤。