CN112633140B

CN112633140B - 多光谱遥感图像城中村多类别建筑物语义分割方法及系统

Info

Publication number: CN112633140B
Application number: CN202011516168.XA
Authority: CN
Inventors: 郭玉彬; 徐嘉树; 李西明
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-09-01
Anticipated expiration: 2040-12-21
Also published as: CN112633140A

Abstract

本发明公开了一种多光谱遥感图像城中村多类别建筑物语义分割方法及系统，所述方法包括：获取城中村区域的多光谱遥感图像；对多光谱遥感图像进行大气校正并锐化；对多光谱遥感图像中的城中村建筑物类别进行标注；将多光谱遥感图像的各波段信息转换成npy格式数据；将npy格式数据和标注图像进行随机分割，构成数据集；搭建语义分割分类器，得到建筑语义分割网络模型；对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型；利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像。本发明能够有效提高遥感图像的城中村建筑物分类的精确度。

Description

多光谱遥感图像城中村多类别建筑物语义分割方法及系统

技术领域

本发明涉及一种多光谱遥感图像城中村多类别建筑物语义分割方法及系统，通过遥感技术进行城中村建筑物的语义分割可以成为城市更新和城市规划等实践的辅助手段，属于遥感图像分类的研究领域。

背景技术

城市的发展往往需要对非规划住区进行改造，如贫民窟、村庄和棚户区等^[1]。快城市化和满足城市居民住房需求的能力不足导致了非正规住区的出现^[2,3]。这些建筑区通常都是高密度的小型建筑，通常被描述为一个城市的负面形象，隐藏着潜在的公众安全问题。对非规划住区改造是城市规划的一项重要的任务，城市规划者和决策者有必要绘制非规划住区点的地图，以评估城市重建问题。然而，这些非规划住区的地理信息资料往往不完整或不可用^[1,2]。虽然城市土地利用制图的分类方法很多，但是传统的遥感方法(基于像素或基于对象)的精度通常不能满足实际应用场景的要求。在复杂的城市建成区，由于光谱、纹理、形状等特征的显著差异，传统的遥感方法很难对其进行描述。在高密度建成区，基于对象的分割也面临着尺度选择和规则定义复杂等困难。因此，开发一种可靠、准确的建筑物分割方法仍然是城市非规划住区改造的一个具有挑战性的课题。

目前使用深度学习对遥感图像进行分类是主流研究方法^[4-6]，Qiu等提出一种基于FCN的人类住区程度绘制框架，解决超大规模的场景绘制问题^[7]。Zhang等提出了一种新的基于对象的卷积神经网络(OCNN)对VFSR图像进行城市土地利用分类。为解决VFSR图像中复杂的城市土地利用分类问题提供了第一个基于对象的CNN框架^[8]。Fang等提出了一个金字塔结构的网络来聚合点云中的多尺度上下文信息，提高了复杂场景的区分能力，产生更准确的语义分割预测结果^[9]。Gong等使用PSPNet提取街道特征，估算和绘制复杂的城市居住环境中街道峡谷的SVF，TVF和BVF^[10]。Schuegraf和Bittner将Unet架构应用于高分辨率(VHR)遥感影像，实现建筑物足迹的提取^[11]。季顺平等利用改进的U-Net进行遥感影像中建筑物的识别，提高了建筑物识别的精度^[12]。Pan等将U-Net应用于高分辨率的遥感图像，对密集的城中村建筑物进行精确划分^[13]。

随着深度学习的不断发展，深度学习开始引入迁移学习的方法，使得算法的性能普遍得到了提高。很多学者通过构建具有很多隐层的网络来提高模型迁移学习的能力，达到提升神经网络在目标领域中表现的目的^[14]。Bengio^[15]研究分析了无监督预训练特征的有效性问题，并将其应用到了迁移学习的场景下。Glorot等^[16]将不同领域的数据放入叠加降噪自动编码器中，学习到的特征更加健壮，并提出了一种新的表示源领域和目标领域数据的表示方法。Zhuang等^[17]通过研究深度自动编码器来进行知识迁移，最小化源领域和目标领域隐藏层的KL距离(Kullback-Leibler Divergence)获得了领域不变的特征表示。Long等^[18]提出了联合自适应网络来解决目标领域中标注数据较少的问题。Sun等^[19]和Rozantsev等^[24]提出了深度领域自适应的方法。

由于高光谱遥感影像的高维特性、波段间高度相关性、光谱混合等^[20]，使用深度学习对高光谱遥感图像的识别，通常采用对高光谱波段进行压缩减少训练数据量的方法，以提高深度学习的效率。目前，对高光谱影像的识别仍依赖于多波段的遥感影像的识别。因此，提高多波段遥感影像的识别效果，对高光谱遥感影像应用有重要意义。然而，现有技术仍存在以下缺点：

1)中国专利申请号为CN202010173481.1的发明专利申请公开了一种基于深度集成学习的高分辨率遥感图像分类方法，其缺点是仅使用像元的亮度值作为分类特征，难以对物体进行精细分类；原因是没有充分利用多光谱遥感图像丰富的光谱信息。

2)中国专利申请号为CN201910862731.X的发明专利申请公开了一种基于全卷积神经网络的无人机影像建筑物屋顶提取方法，其缺点是训练图像来自无人机拍摄，训练得到的模型泛化能力较弱；原因是受拍摄天气，高度，清晰度等因素的影响，无人机在不同环境下拍摄的影像差别较大，基于无人机影像训练的模型对不同型号无人机在不同环境下拍摄的影像的识别能力较差。

3)中国专利申请号为CN202010517540.2的发明专利申请基于多层卷积神经网络的水环境遥感数据建模方法，其缺点是网络模型过于单一，进过多次池化操作后，模型的到的图像分辨率较低，没有充分考虑图像在网络模型中目标的分类和像素位置的确定这两个问题；原因是池化层会降低图像的分辨率，损失大量空间信息，导致模型预测不准确。

参考文献如下：

[1]Wurma,M.；Starkb,T.；Zhu,X.；Weigand,M.；H.Semanticsegmentation of slums in satellite images using transfer learning on fullyconvolutional neural networks.ISPRS Journal of Photogrammetry and RemoteSensing 2019,150,59–69.

[2]Kuffer,M.；Pfeffer,K.；Sliuzas,R.Slums from space—15years of slummapping using remote sensing.Remote Sensing 2016,8(6),455-471.

[3]Nations,U.Habitat iii issue papers 22–informal settlements.InUnited Nations Conference on Housingand Sustainable Urban Development,NewYork:United Nations,www.habitat3.org.,2015.

[4]Blaschke,T.Object based image analysis for remote sensing.ISPRSJournal of Photogrammetry and Remote Sensing 2010,65(1),2-16.

[5]Liu,J.；Li,P.；Wang,X.A new segmentation method for very highresolution imagery using spectral and morphological information.ISPRS Journalof Photogrammetry and Remote Sensing 2015,101,145-162.

[6]Jin,X.Segmentation-based image processing system(20090123070),uspatent.2009.

[7]Qiu,Chunping,Michael Schmitt,Christian Geiβ,Tzu-Hsin Karen Chen,and Xiao Xiang Zhu(2020).A framework for large-scale mapping of humansettlement extent from Sentinel-2images via fully convolutional neuralnetworks".In:ISPRS Journal of Photogrammetry and Remote Sensing 163,pp.152-170.

[8]Zhang,Ce,Isabel Sargent,et al.(2018).An object-based convolutionalneural network(OCNN)for urban land use classification".In:Remote Sensing ofEnvironment 216,pp.57-70.

[9]Fang,Hao and Florent Lafarge(2019).Pyramid scene parsing networkin 3D:Improving semantic segmentation of point clouds with multi-scalecontextual information".In:ISPRS Journal of Photogrammetry and Remote Sensing154,pp.246-258.

[10]Gong,Fang-Ying et al.(2018).\Mapping sky,tree,and building viewfactors of street canyons in a high-density urban environment".In:Buildingand Environment 134,pp.155-167

[11]Schuegraf P,Bittner K.Automatic Building Footprint Extractionfrom Multi-Resolution Remote Sensing Images Using a Hybrid FCN[J].IsprsInternational Journal of Geo Information,2019,8(4).

[12]季顺平,魏世清.遥感影像建筑物提取的卷积神经元网络与开源数据集方法[J].测绘学报,2019,48(04):448-459.

[13]Pan Z,Xu J,Guo Y,et al.Deep Learning Segmentation andClassification for Urban Village Using a Worldview Satellite Image Based onU-Net[J].Remote Sensing,2020,12(1574).

[14]李茂莹,杨柳,胡清华.同构迁移学习理论和算法研究进展[J].南京信息工程大学学报:自然科学版,2019,011(003):269-277.

[15]Bengio Y.Deep learning of representations for unsupervised andtransfer learning[C]∥Proceedings of the International Conference on MachineLearning Workshop on Unsupervised and Transfer Learning，2012:17-36.

[16]Glorot X，Bordes A，Bengio Y.Domain adaptation for large-scalesentiment classification:a deep learning approach[C]∥Proceedings of the 28thInternational Conference on Machine Learning，2011:513-520.

[17]Zhuang F，Cheng X，Luo P，et al.Supervised representation learning:transfer learning with deep autoencoders[C]∥Proceedings of the 24thInternational Conference on Artificial Intelligence，2015:4119-4125.

[18]Long M,Zhu H,Wang J,et al.Deep Transfer Learning with JointAdaptation Networks[J].2016.

[19]Sun B,Saenko K.Deep CORAL:Correlation Alignment for Deep DomainAdaptation[J].2016.

[20]Rozantsev A,Salzmann M,Fua P.Beyond Sharing Weights for DeepDomain Adaptation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2016:1-1.

发明内容

有鉴于此，本发明提供了一种多光谱遥感图像城中村多类别建筑物语义分割方法、系统、计算机设备及存储介质，其能够有效提高遥感图像的城中村建筑物分类的精确度。

本发明的第一个目的在于提供一种多光谱遥感图像城中村多类别建筑物语义分割方法。

本发明的第二个目的在于提供一种多光谱遥感图像城中村多类别建筑物语义分割系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种多光谱遥感图像城中村多类别建筑物语义分割方法，所述方法包括：

获取城中村区域的多光谱遥感图像；

对多光谱遥感图像进行大气校正并锐化；

对多光谱遥感图像中的城中村建筑物类别进行标注；

将多光谱遥感图像的各波段信息转换成npy格式数据；

将npy格式数据和标注图像进行随机分割，构成数据集；

搭建语义分割分类器，得到建筑语义分割网络模型；

对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型；

利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像。

进一步的，所述建筑语义分割网络模型包括通道变换模块、编码器-解码器模块和预测模块；

所述通道变换模块包括两个核为1×1、步长为1的卷积层，第一个卷积层将a通道的输入经过1×1的卷积操作扩充图像的特征通道数量；第二个卷积层对扩充后的特征通道进行线性组合，将具有a波段的多光谱遥感图像，转换成具有三个通道的特征图像；

所述编码器-解码器模块用于对通道变换模块输出的特征图像进行特征信息提取，并将得到的特征图像输入预测模块，包括卷积层、池化层、上采样层、连接层、特征卷积模块和压缩卷积模块；其中，对特征图像进行压缩尺寸操作的部分为编码器，对特征图像尺寸还原的部分为解码器。

进一步的，所述编码器-解码器模块对通道变换模块输出的特征图像进行特征信息提取分为五层，具体包括：

在第一层中，针对经过通道变换模块后的特征图像，使用两个卷积核为3×3的卷积层提取特征信息，并且转变特征图像的通道数为32；使用连接层将通道数量为32的特征图像与解码器得到的通道数量为64的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为32；将得到的特征图像输入预测模块；

在第二层中，针对经过通道变换模块后的特征图像，使用zeropad将特征图像用0扩充3×3的尺寸；通过卷积核为7×7、步长为1的卷积层将特征图像压缩为原来尺寸的1/2，通道数量转换为64，使用连接层将通道数量为64的特征图像与解码器得到的通道数量为128的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图提取特征信息，改变通道数量为64；将特征图像输入上采样层；

在第三层中，将第二层压缩后的特征图像，使用核为3×3、步长为2的池化层将特征图尺寸压缩为原来的1/2，输入压缩卷积模块；使用两个特征卷积模块提取特征信息，得到通道数量为128的特征图像，使用连接层将通道数量为128的特征图像与解码器得到的通道数量为256的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为128；将特征图像输入上采样层；

在第四层中，将第三层经特征卷积模块得到的通道数量为128的特征图像，输入压缩卷积模块；使用三个特征卷积模块提取特征信息，得到通道数量为256的特征图像，使用连接层将通道数量为256的特征图像与解码器得到的通道数量为512的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为256；将特征图像输入上采样层；

在第五层中，将第四层经特征卷积模块得到的通道数量为256的特征图像，输入压缩卷积模块；使用五个特征卷积模块和两个卷积核为3×3的卷积层提取特征信息，得到通道数量为512的特征图像；将特征图像输入上采样层。

进一步的，所述对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型，具体包括：

基于迁移学习的方法，使用预训练模型权重作为建筑语义分割网络模型的超参数，或者使用随机初始化设置建筑语义分割网络模型的超参数，将预训练的迭代次数设置为PreEpoch，利用数据集调整建筑语义分割网络模型的权重；

将正式训练的迭代次数设置为ResEpoch，利用数据集对建筑语义分割网络模型进行训练与参数优化，将每次迭代的最佳建筑语义分割网络模型存储起来，迭代结束得到最优的建筑语义分割网络模型，作为训练好的建筑语义分割网络模型。

进一步的，所述利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像，具体包括：

将目标多光谱遥感图像转换成npy格式数据；

对转换成npy格式数据的图像尺寸填充0，得到一副长宽为256的倍数的图像，同时得到一个与该图一样大的全0的空白图；

以256为步长切割成小图，依次将小图输入训练好的建筑语义分割网络模型中进行预测，使预测好的小图则放在空白图的相应位置上，依次进行，得到预测好的整张大图；

对预测好的整张大图切割成目标多光谱遥感图像尺寸，得到建筑语义分割图像，完成对城中村建筑物的分类。

进一步的，所述对多光谱遥感图像中的城中村建筑物类别进行标注，具体包括：

利用矢量图形工具对多光谱遥感图像中的城中村建筑物勾勒出边界，标记城中村建筑物类别，将得到的矢量图像转换成栅格图像；

或获取多光谱遥感图像对应的建筑物底图文件，根据建筑物底图轮廓，标记城中村建筑的类别，并对建筑物底图进行栅格化。

进一步的，所述将npy格式数据和标注图像进行随机分割，构成数据集，具体包括：

对于每张多光谱遥感图像，随机选取N个坐标点，以该坐标点为起点，分别对npy格式数据和标注图像切割出N份256×256大小的数据样本；

将所有多光谱遥感图像切割出来的样本按照2:1的比例划分为训练集和验证集。

本发明的第二个目的可以通过采取如下技术方案达到：

一种多光谱遥感图像城中村多类别建筑物语义分割系统，所述系统包括：

获取单元，用于获取城中村区域的多光谱遥感图像；

校正单元，用于对多光谱遥感图像进行大气校正并锐化；

标注单元，用于对多光谱遥感图像中的城中村建筑物类别进行标注；

转换单元，用于将多光谱遥感图像的各波段信息转换成npy格式数据；

随机分割单元，用于将npy格式数据和标注图像进行随机分割，构成数据集；

搭建单元，用于搭建语义分割分类器，得到建筑语义分割网络模型；

训练单元，用于对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型；

语义分割单元，用于利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的多光谱遥感图像城中村多类别建筑物语义分割方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的多光谱遥感图像城中村多类别建筑物语义分割方法。

本发明相对于现有技术具有如下的有益效果：

本发明利用深度学习中的卷积神经网络模型作为建筑语义分割网络模型，解决多光谱遥感图像的城中村多类别建筑物语义分割问题，该建筑语义分割网络模型为新的端到端深度卷积神经网络模型，端到端为从输入端到输出端直接用一个神经网络相连，从而自动化分类多光谱遥感图像中的建筑物类别，可以提高遥感图像城中村建筑物分类的精确度，解决了现有语义分割网络模型中对多光谱遥感影像特征提取能力不佳的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的多光谱遥感图像城中村多类别建筑物语义分割方法的流程图。

图2为本发明实施例1的所选取的研究区域的示意图。

图3为本发明实施例1的多光谱遥感图像的示意图。

图4为本发明实施例1的建筑物底图的示意图。

图5为本发明实施例1的标注图像的示意图。

图6a～图6h为本发明实施例1的多光谱遥感图像的各个波段灰度图像。

图7为本发明实施例1的建筑语义分割网络模型的结构框图。

图8为本发明实施例1的压缩卷积模块的结构框图。

图9为本发明实施例1的特征卷积模块的结构框图。

图10为本发明实施例2的多光谱遥感图像城中村多类别建筑物语义分割系统的结构框图。

图11为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种多光谱遥感图像城中村多类别建筑物语义分割方法，该方法包括以下步骤：

S101、获取城中村区域的多光谱遥感图像。

城市非规划住区是世界性的现象。这些地区的地理信息资料对城市重建规划至关重要，但通常难以获得。对城中村单体建筑进行遥感自动制图是一项具有挑战性和前所未有的任务，本实施例选取的研究区域为天河区中心区域，如图2所示，天河区中心区域的多光谱遥感图像如图3所示，包含10个城中村区域，主要由拥挤的建筑物组成，每个区域的多光谱遥感图像为一张多光谱遥感图像，尺寸约为1500×1500，该多光谱遥感图像来自worldwiew-2卫星，拍摄于2013年12月，Worldview-2图像的8个多光谱波段的分辨率为2米，全色波段的分辨率为0.5米。

S102、对多光谱遥感图像进行大气校正并锐化。

具体地，使用大气校正工具，获取多光谱遥感图像设置面板中的参数，完成大气校正，以获得图像反射率；使用锐化技术将多光谱波段泛锐化，本实施例采用NNDifuse锐化技术将多光谱波段泛锐化至0.5m的像素分辨率。

S103、对多光谱遥感图像中的城中村建筑物类别进行标注。

标注方法可以为直接标注，也可以根据建筑物底图数据进行标注，其中直接标注是利用矢量图形工具对多光谱遥感图像中的城中村建筑物勾勒出边界，标记城中村建筑物类别，将得到的矢量图像转换成栅格图像。

而本实施例根据建筑物底图数据进行标注，具体为：从中国科学院地理科学与资源研究所中获取多光谱遥感图像对应的建筑物底图文件，如图4所示；根据建筑物底图轮廓，标记城中村建筑的类别，建筑的类别划分为“old house”、“old factory”、“iron roofbuilding”、“new building”，对于非建筑物统一标注为“Backgroud”，如图5所示，并对建筑物底图进行栅格化，即将标注好的矢量文件转换成栅格图像。

S104、将多光谱遥感图像的各波段信息转换成npy格式数据。

利用ENVI读取多光谱遥感图像，依次将光谱各波段导出为灰度图像，如图6a～图6h所示，图6a～图6h示出了多光谱遥感图像每个波段数据的情况，对于每张多光谱遥感图像，利用python矩阵处理，分别读取多光谱的各波段信息，使用numpy库工具将各波段数据堆叠成一个三维的矩阵，保存为npy格式。

S105、将npy格式数据和标注图像进行随机分割，构成数据集。

图3可以看到10个城中村区域(1-10)，选取区域2作为测试集，每个区域包含多光谱遥感图像的npy格式文件以及对应的标注图像，为了进行网络模型的训练，需要将图像的尺寸切割为固定的适合模型训练的大小；除区域2外，对其它区域的多光谱遥感图像(即九张多光谱遥感图像)，使用numpy读取npy文件中的波段信息为一个三维矩阵，随机选取500个坐标点，按照坐标点将三维矩阵切割成256×256的三维矩阵，然后保存为npy格式，同时使用这些坐标点对标签图切割成对应的256×256的标注图像。因此，对于1、3、4、5、6、7、8、9、10这九个区域，共切割成4500个256×256的小区域，这4500个数据样本按照2:1的比例划分为模型训练的训练集和验证集。

S106、搭建语义分割分类器，得到建筑语义分割网络模型。

其中，建筑语义分割网络模型的结构如图7所示，其包括通道变换模块、编码器-解码器模块和预测模块，建筑语义分割网络模型的原理为：由图像输入数据经过通道变换模块，将八维的图像数据压缩成三维的特征图像数据，然后将这压缩后的图像输入编码器-解码器模块提取特征信息，最后使用预测模块对图像的每一个像素预测其所属的建筑物类别。

进一步地，通道变换模块包括两个核为1×1、步长为1的卷积层，第一个卷积层将a通道的输入经过1×1的卷积操作扩充图像的特征通道数量；第二个卷积层对扩充后的特征通道进行线性组合，将具有a波段的多光谱遥感图像，转换成具有三个通道的特征图像。

进一步地，编码器-解码器模块用于对通道变换模块输出的特征图像进行特征信息提取，并将得到的特征图像输入预测模块，包括卷积层、池化层、上采样层、连接层、特征卷积模块(Identity Block)和压缩卷积模块(Conv Block)；其中，对特征图像进行压缩尺寸操作的部分为编码器，具体地，编码器从通道变换模块得到的特征图开始逐步压缩尺寸，每次使用卷积层或者池化层将尺寸压缩为原来的1/2，共压缩4次；对特征图像尺寸还原的部分为解码器，解码器从最后一次压缩的开始，逐步还原特征图尺寸，每次使用上采样层将尺寸扩大为原来的2倍，共还原4次。

进一步地，编码器-解码器模块对通道变换模块输出的特征图像进行特征信息提取分为五层，具体包括：

在第一层中，针对经过通道变换模块后的特征图像，使用两个卷积核为3×3的卷积层提取特征信息，并且转变特征图像的通道数为32；使用连接层将通道数量为32的特征图像与解码器得到的通道数量为64的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为32；将得到的特征图像输入预测模块。

在第二层中，针对经过通道变换模块后的特征图像，使用zeropad将特征图像用0扩充3×3的尺寸；通过卷积核为7×7、步长为1的卷积层将特征图像压缩为原来尺寸的1/2，通道数量转换为64，使用连接层将通道数量为64的特征图像与解码器得到的通道数量为128的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图提取特征信息，改变通道数量为64；将特征图像输入上采样层。

在第三层中，将第二层压缩后的特征图像，使用核为3×3、步长为2的池化层将特征图尺寸压缩为原来的1/2，输入压缩卷积模块；使用两个特征卷积模块提取特征信息，得到通道数量为128的特征图像，使用连接层将通道数量为128的特征图像与解码器得到的通道数量为256的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为128；将特征图像输入上采样层。

在第四层中，将第三层经特征卷积模块得到的通道数量为128的特征图像，输入压缩卷积模块；使用三个特征卷积模块提取特征信息，得到通道数量为256的特征图像，使用连接层将通道数量为256的特征图像与解码器得到的通道数量为512的特征图像进行连接；使用两个卷积核为3×3的卷积层对连接后的特征图像提取特征信息，改变通道数量为256；将特征图像输入上采样层。

压缩卷积模块的结构如图8所示，依次由以下结构组成：①核为1×1，步长为2的卷积层；②BN层；③核为3×3，步长为1的卷积层；④BN层；⑤核为1×1，步长为1的卷积层；⑥对输入数据重复①和②过程；⑦Add层。

进一步地，①中卷积层将特征图尺寸压缩为原来的1/2；③对特征图像进行特征信息的提取；⑤中卷积层改变特征图像的通道数量以便于跟⑥得到的特征图像相加；⑥获得一份经过①②后的特征图像的克隆；⑦将⑤和⑥得到的特征图像按照通道一一相加；②④⑥中BN层对数据进行归一化处理。

特征卷积模块的结构如图9所示，依次由以下结构组成：①核为1×1，步长为1的卷积层；②BN层；③核为3×3，步长为1的卷积层；④BN层；⑤核为1×1，步长为1的卷积层；⑥BN层；⑦Add层。

进一步地，①中卷积层改变特征图像的通道数量；③对特征图像进行特征信息的提取；⑤中卷积层改变特征图像的通道数量与①相同；⑥将⑤得到的特征图像和输入特征图像按照通道一一相加；②④⑥中BN层对数据进行归一化处理。

所述预测模块包括标签预测和sigmoid分类函数，具体包括一个核为1×1、步长为1的卷积层，其卷积通道数为建筑物类别数目，使用sigmoid分类函数，得到各类别的得分，sigmoid分类函数为：

其中，f(Z_i,j)表示将的值转换为概率范围0到1；Z_i,j为i像素属于类别j的预测分值。

进一步地，卷积层采用Conv2D，除预测模块外，卷积层均采用relu激活函数，池化层采用MaxPooling2D，relu激活函数为：

其中，relu(x)表示将输出值进行非线性转化，x为输入值，对应卷积层的输出结果。

S107、对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型。

本实施例的训练分为两个阶段，分别为预训练阶段和正式训练阶段，具体说明如下：

1)基于迁移学习的方法，使用预训练模型权重作为建筑语义分割网络模型的超参数，或使用随机初始化设置建筑语义分割网络模型的超参数，将预训练的迭代次数设置为PreEpoch＝10，利用数据集调整建筑语义分割网络模型的权重；其中，预训练模型采用resnet50模型。

2)为了确保建筑语义分割网络模型训练的准确率和损失值的收敛，将正式训练的迭代次数设置为ResEpoch＝50，利用数据集对建筑语义分割网络模型进行训练与参数优化，将每次迭代的最佳建筑语义分割网络模型存储起来，迭代结束得到最优的建筑语义分割网络模型，作为训练好的建筑语义分割网络模型。

在上述训练过程中，Batch Size是指每批次训练样本的数量，设置为16，使用Adam(自适应矩估计)优化算法作为优化器，在预训练阶段将Learning rate设置为0.001，让建筑语义分割网络模型根据预训练权重进行一定程度的调整，然后在正式训练阶段将Learning rate设置成0.0001，以确保建筑语义分割网络模型达到更好地训练效果，Reducefactor是在建筑语义分割网络模型的训练精度在三次epoch中都没有发生变化时，学习率将衰减为原来的0.6倍，这一参数能使建筑语义分割网络模型更稳妥地收敛到极值点。

S108、利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像。

本实施例采用分割预测再拼接的方法，使用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行城中村建筑物语义分割，使用该建筑语义分割网络模型预测时，需要将图像以256×256的大小作为输入。

本实施例以步骤S105选取测试集的测试图像(区域2的多光谱遥感图像)作为目标多光谱遥感图像，读取其npy格式数据，然后对npy格式数据的图像尺寸填充0，得到一副长宽为256的倍数的图像，同时得到一个与该图一样大的全0的空白图A；然后以256为步长切割成小图，依次将小图输入训练好的建筑语义分割网络模型中进行预测，使预测好的小图则放在空白图A的相应位置上，依次进行，得到预测好的整张大图A；再对预测好的整张大图A切割成目标多光谱遥感图像尺寸，得到建筑语义分割图像，完成对城中村建筑物的分类。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图10所示，本实施例提供了一种多光谱遥感图像城中村多类别建筑物语义分割系统，该系统包括获取单元1001、校正单元1002、标注单元1003、转换单元1004、随机分割单元1005、搭建单元1006、训练单元1007和语义分割单元1008，各个单元的具体功能如下：

获取单元1001，用于获取城中村区域的多光谱遥感图像。

校正单元1002，用于对多光谱遥感图像进行大气校正并锐化。

标注单元1003，用于对多光谱遥感图像中的城中村建筑物类别进行标注。

转换单元1004，用于将多光谱遥感图像的各波段信息转换成npy格式数据。

随机分割单元1005，用于将npy格式数据和标注图像进行随机分割，构成数据集。

搭建单元1006，用于搭建语义分割分类器，得到建筑语义分割网络模型。

训练单元1007，用于对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型。

语义分割单元1008，用于利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配给不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

如图11所示，本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，包括通过系统总线1101连接的处理器1102、存储器、输入装置1103、显示器1104和网络接口1105。其中，处理器1102用于提供计算和控制能力，存储器包括非易失性存储介质1106和内存储器1107，该非易失性存储介质1106存储有操作系统、计算机程序和数据库，该内存储器1107为非易失性存储介质1106中的操作系统和计算机程序的运行提供环境，计算机程序被处理器1102执行时，实现上述实施例1的多光谱遥感图像城中村多类别建筑物语义分割方法，如下：

获取城中村区域的多光谱遥感图像；

对多光谱遥感图像进行大气校正并锐化；

对多光谱遥感图像中的城中村建筑物类别进行标注；

将多光谱遥感图像的各波段信息转换成npy格式数据；

将npy格式数据和标注图像进行随机分割，构成数据集；

搭建语义分割分类器，得到建筑语义分割网络模型；

实施例4：

本实施例提供一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的多光谱遥感图像城中村多类别建筑物语义分割方法，如下：

获取城中村区域的多光谱遥感图像；

对多光谱遥感图像进行大气校正并锐化；

对多光谱遥感图像中的城中村建筑物类别进行标注；

将多光谱遥感图像的各波段信息转换成npy格式数据；

将npy格式数据和标注图像进行随机分割，构成数据集；

搭建语义分割分类器，得到建筑语义分割网络模型；

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明利用深度学习中的卷积神经网络模型作为建筑语义分割网络模型，解决多光谱遥感图像的城中村多类别建筑物语义分割问题，该建筑语义分割网络模型为新的端到端深度卷积神经网络模型，端到端为从输入端到输出端直接用一个神经网络相连，从而自动化分类多光谱遥感图像中的建筑物类别，可以提高遥感图像城中村建筑物分类的精确度，解决了现有语义分割网络模型中对多光谱遥感影像特征提取能力不佳的问题。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种多光谱遥感图像城中村多类别建筑物语义分割方法，其特征在于，所述方法包括：

获取城中村区域的多光谱遥感图像；

对多光谱遥感图像进行大气校正并锐化；

对多光谱遥感图像中的城中村建筑物类别进行标注；

将多光谱遥感图像的各波段信息转换成npy格式数据；

将npy格式数据和标注图像进行随机分割，构成数据集；

搭建语义分割分类器，得到建筑语义分割网络模型；

利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像；

所述建筑语义分割网络模型包括通道变换模块、编码器-解码器模块和预测模块；

所述编码器-解码器模块用于对通道变换模块输出的特征图像进行特征信息提取，并将得到的特征图像输入预测模块，包括卷积层、池化层、上采样层、连接层、特征卷积模块和压缩卷积模块；其中，对特征图像进行压缩尺寸操作的部分为编码器，对特征图像尺寸还原的部分为解码器；

所述编码器-解码器模块对通道变换模块输出的特征图像进行特征信息提取分为五层，具体包括：

2.根据权利要求1所述的多光谱遥感图像城中村多类别建筑物语义分割方法，其特征在于，所述对建筑语义分割网络模型设置超参数，利用数据集进行训练与参数优化，得到训练好的建筑语义分割网络模型，具体包括：

3.根据权利要求1所述的多光谱遥感图像城中村多类别建筑物语义分割方法，其特征在于，所述利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像，具体包括：

将目标多光谱遥感图像转换成npy格式数据；

4.根据权利要求1-3任一项所述的多光谱遥感图像城中村多类别建筑物语义分割方法，其特征在于，所述对多光谱遥感图像中的城中村建筑物类别进行标注，具体包括：

5.根据权利要求1-3任一项所述的多光谱遥感图像城中村多类别建筑物语义分割方法，其特征在于，所述将npy格式数据和标注图像进行随机分割，构成数据集，具体包括：

6.一种多光谱遥感图像城中村多类别建筑物语义分割系统，其特征在于，所述系统包括：

获取单元，用于获取城中村区域的多光谱遥感图像；

校正单元，用于对多光谱遥感图像进行大气校正并锐化；

语义分割单元，用于利用训练好的建筑语义分割网络模型对目标多光谱遥感图像进行建筑物语义分割，得到建筑语义分割图像；

7.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-5任一项所述的多光谱遥感图像城中村多类别建筑物语义分割方法。

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-5任一项所述的多光谱遥感图像城中村多类别建筑物语义分割方法。