CN112464745A

CN112464745A - 一种基于语义分割的地物识别与分类方法和装置

Info

Publication number: CN112464745A
Application number: CN202011239567.6A
Authority: CN
Inventors: 李峥; 赵江华; 王学志
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-09
Anticipated expiration: 2040-11-09
Also published as: CN112464745B

Abstract

本发明公开了一种基于语义分割的地物识别与分类方法和装置。本方法为：1)获取各区域的多源遥感数据，将同一区域的数据合并为一个样本，得到一样本集；2)建立语义分割模型；然后利用样本集对模型进行训练；语义分割模型由编码器、中心模块和解码器串联组成；编码器由N个编码模块串联组成，解码器由N个解码模块和一个点卷积模块串联组成，中心模块由卷积模块C₁、卷积模块C₂串联组成；每个编码模块E_l由卷积模块E_l1、卷积模块E_l2和下采样模块DS_l串联组成，每个解码模块D_l由上采样模块US_l、卷积模块D_l2、卷积模块D_l1和卷积模块D_l0串联组成；3)利用训练后的模型对待识别遥感数据处理，得到地物类型的识别结果。

Description

一种基于语义分割的地物识别与分类方法和装置

技术领域

本发明涉及地理信息、生态环境科学领域和遥感、计算机技术领域，具体来说，涉及一种基于语义分割的地物识别与分类方法和装置。

背景技术

地物识别与分类，主要是利用对地观测得到的图像，通过语义分割对图像中每一个像素的所属类别进行识别，进而实现道路提取、建筑物检测、森林变化监测、土地类型识别等，在资源调查、农业、林业、海洋、土地管理、城市规划、地形测绘、减灾防灾、环境污染、气候变化等领域都有广泛的应用，对于人类的可持续发展具有十分重要的意义。

利用对地观测图像进行地物识别与分类，主要是利用遥感技术，通过空基和天基平台搭载的成像设备对地表进行远距离探测和观测，从而获取地表图像。其中，空基平台主要包括无人机、飞机等航空飞行器；天基平台主要包括卫星、飞船、航天飞机、空间站等航天飞行器。

根据成像设备不同，对地观测图像有多种来源，主要包括雷达和光学传感器等。其中，雷达是通过向地表主动发射激光或电磁波，并接收地表反射回来的信号进行成像。光学传感器是通过全色、可见光、近红外、短波红外、热红外等多个光谱波段被动获取地表光学图像。

目前已有的地物识别与分类方法常用航空或卫星光学遥感数据，其中大多数利用可见光和近红外光谱特征进行地物识别。在气象条件较差的条件下，由于受到云雾遮挡、大气能见度降低等原因的影响，光学遥感特别是可见光光谱波段的对地观测成像质量较差，显著影响地物识别的准确度。同时，可见光传感器在夜晚等弱光照条件下难以有效发挥作用。因此，仅利用光学遥感数据，难以保证地物识别和分类的准确度。

像素级的遥感图像识别与分类，主要是利用计算机视觉方法。传统的方法利用图像处理技术，直接使用不同的光谱波段值作为特征，并从图像局部的光学和纹理如HOG、SIFT、直方图等，提取手工设计的特征，如轮廓、关键点、方向、色彩等，然后利用贝叶斯分类器、支持向量机、随机森林、提升学习等方法进行分类。对于高分辨率的遥感图像，由于难以提供足够的信息用于像素级分类，这些方法存在较大的局限性。

现代的计算机视觉方法利用自动特征学习方法进行图像分类。与传统的方法相比，在图像分类的性能上表现出了显著的提升。其中，最广泛使用的图像分类算法是卷积神经网络(CNN)模型。在经典的CNN模型中，卷积层的后面连接多个全连接层，将卷积层生成的特征图映射为固定长度的特征向量，再对最后一个全连接层的输出通过sigmoid函数或softmax函数计算最终的分类概率，概率最大的类别即为最终的类别标签。经典的CNN模型常用于图像场景分类，由于需要大量的内存、处理时间长等问题，很少直接用于像素级图像分类。

在像素级图像分类中的一种常用方法是全卷积神经网络(FCN)模型。FCN模型将经典CNN模型中的全连接层替换为一个卷积层，并且使用一个转置卷积层对特征图进行上采样，从而输出与输入相同大小的图像。FCN模型从抽象的特征图中获取每个像素的特定分类，其中，浅层的特征图具有较高分辨率，用于解决像素定位的问题；深层特征图具有高级语义信息，用于解决像素分类的问题。在FCN模型的基础上，一系列方法如SegNet、U-Net、DeconvNet、Deeplab等被提出，通过引入空洞卷积、空间金字塔池化、条件随机场等方法来提高分割性能。虽然这些方法在PASCAL、Cityscapes、ADE20K等基准测试数据集上的性能良好，但是在高分辨率遥感图像数据集上并未取得理想的结果。

发明内容

本发明的目的是提供一种基于语义分割的地物识别与分类方法和装置。本发明使用对地观测多源遥感图像建立语义分割模型，使用所建立的语义分割模型对地面物体的类型进行识别，显著提高地物识别和分类的准确率。

为实现上述目的，本发明所采用的技术方案为：

一种基于语义分割的地物识别与分类方法，其步骤包括：

1、读取对地观测多源遥感图像，使用同一区域的雷达遥感数据、光学遥感数据合并为一个样本数据，构建样本数据集；

2、从样本数据集建立训练数据集和验证数据集；

3、建立语义分割模型，设置模型参数；

4、输入训练数据集和验证数据集，对语义分割模型进行训练，得到训练完成的语义分割模型；

5、向训练完成的语义分割模型输入预测数据集，得到地物类型的识别结果。

进一步地，步骤1所述对地观测多源遥感图像包括雷达遥感数据和/或光学遥感数据。优选的，所述对地观测多源遥感图像包括至少1000张遥感图像。

进一步地，步骤1所述雷达遥感数据包括激光雷达(LiDAR)、合成孔径雷达(SAR)等获取的地面图像。所述图像的存储文件格式包括GeoTIFF、JPG等。每张图像的宽度为W像素，高度为H像素，分辨率为R。每张图像包括一个或多个通道，通道数为C_R。

进一步地，步骤1所述光学遥感数据是CCD等光学传感器获取的地面图像，包括全色、可见光、近红外、短波红外、热红外等一个或多个不同波长的光谱波段。其中，所述可见光又包括红、绿、蓝等一个或多个不同波长的可见光谱波段。所述图像的存储文件格式为GeoTIFF、JPG、HDF、NetCDF等。每张图像的宽度为W像素，高度为H像素，分辨率为R。每张图像包括一个或多个通道，通道数为C_O。每个通道对应一个光谱波段。优选的，所述光学遥感数据至少包括可见光和近红外光谱波段。

进一步地，步骤1所述样本数据集是M组图像的集合，每组图像包括2张图像，分别是输入图像A和标注图像A’。输入图像A的存储文件格式为GeoTIFF、PNG、JPG等，每张输入图像包括多个通道，由对应于同一地理区域范围的所述雷达遥感图像A₁和所述光学遥感图像A₂通道堆叠而成，通道数为C_R+C_O。将每张输入图像A进行标注得到对应的标注图像A’，其存储文件格式为GeoTIFF、PNG、JPG等，每张标注图像包括一个通道，其中的每个像素值代表该像素所对应地理区域范围的类别标签。将每张输入图像A及其对应的标注图像A’作为一组样本数据，输入图像A及其对应的标注图像A’对应于同一个地理区域范围。

进一步地，步骤2所述样本数据集中，每张图像的宽度为W像素，高度为H像素，分辨率为R。从中随机抽取n_t组图像设置为训练数据集，剩下的M-n_t组图像设置为验证数据集，其中1<n_t<M。所述训练数据集和验证数据集中的图像不重复。优选的，所述训练数据集至少包括M*80％组图像，验证数据集至少包括M*10％组图像。

进一步地，步骤3所述语义分割模型由编码器、中心模块和解码器串联组成，其中编码器包括N个编码模块，解码器包括N个解码模块。模型的输入数据是步骤2所述输入图像；输出数据是预测图像，其通道数与所预测的类别数相同，其中的每个像素值代表该像素所对应地理区域范围属于各个类别的分值。

进一步地，步骤3所述编码器由N个编码模块串联组成。编码模块的数量N根据输入图像的大小和通道数确定，其中N≥1。如果输入图像的高度和宽度较大、通道数较少，编码模块的数量可以较多，如果输入图像的高度和宽度较小、通道数较多，编码模块的数量可以较少。最优的编码模块数量，可以通过试验确定。优选的，设输入图像的宽度为W，高度为H，则编码模块的数量N＝Max(log₂(Min(W,H)/32),1)。

进一步地，步骤3所述每个编码模块E_l由卷积模块E_l1、卷积模块E_l2和下采样模块DS_l串联组成，其中l＝1,2,…N。卷积模块E_l1对收到的数据进行计算后得到特征图FM_el1，卷积模块E_l2对特征图FM_el1进行计算后得到特征图FM_el2，下采样模块DS_l对特征图FM_el2进行计算后得到特征图FM_el3。所述下采样模块采用的算法是邻近插值、双线性插值、立方插值、平均池化、最大池化、卷积等算法中的一种。优选的，所述下采样模块采用的算法为最大池化。

进一步地，步骤3所述中心模块由卷积模块C₁、卷积模块C₂串联组成。卷积模块C₁接收编码模块E_N中下采样模块DS_N输出的特征图FM_eN3，进行计算后得到特征图FM_c1，卷积模块C₂对特征图FM_c1进行计算后得到特征图FM_c2，输出至解码模块D_N中的上采样模块US_N。

进一步地，步骤3所述解码器由N个解码模块和一个点卷积模块串联组成。其中，每个解码模块D_l由上采样模块US_l、卷积模块D_l2、卷积模块D_l1和卷积模块D_l0串联组成，l＝1,2,…N。上采样模块US_l对接收到的特征图进行计算后得到特征图FM_dl3，卷积模块D_l2对特征图FM_dl3进行计算后得到特征图FM_dl2。特征图FM_dl2的通道数为d，与其相对应的编码器中卷积模块E_l2输出的特征图FM_el2通道数为e，将特征图FM_el2中央区域裁剪至与特征图FM_dl2相同的大小后与特征图FM_dl2进行拼接，合并为一个通道数为c＝d+e的特征图FM_cl2。卷积模块D_l1对特征图FM_cl2进行计算后得到特征图FM_dl1，卷积模块D_l0对特征图FM_dl1进行计算后得到特征图FM_dl0。点卷积模块对卷积模块D₁₀输出的特征图FM_d10进行计算后得到预测图像。其中，点卷积模块的卷积核大小是1*1；上采样模块采用的算法是邻近插值、双线性插值、立方插值、转置卷积、反卷积等算法中的一种。优选的，所述上采样模块采用的算法是双线性插值。

进一步地，步骤3所述卷积模块由卷积层、规范化层、激活层串联组成。其中，卷积模块E₁₁的输入通道数N_c＝C_R+C_O，输出通道数为N_f；卷积模块E_l1(l＝2,…N)的输出通道数为输入通道数的2倍；卷积模块E_l2(l＝1,2,…N)的输出通道数和输入通道数相同；卷积模块C₁的输出通道数为输入通道数的2倍；卷积模块C₂的输出通道数和输入通道数相同；卷积模块D_l2、D_l1(l＝1,…N)的输出通道数为输入通道数的1/2；卷积模块D_l0(l＝1,2,…N)的输出通道数和输入通道数相同。本发明中，编码器模块和中心模块的通道数设置是将输入图像的低维特征向高维特征进行分层非线性映射，解码器模块的通道数设置是将高维特征分层恢复至低维特征，这种设置能够显著提高模型的准确率。

进一步地，步骤3所述卷积层的卷积核大小是1*1、3*3、5*5、7*7等中的一种。卷积层首先计算权值的标准化值，再使用标准化的权值对输入数据进行卷积计算。优选的，卷积模块D_l2(l＝1,…N)中卷积层的卷积核大小为1*1，其它卷积模块中卷积层的卷积核大小为3*3。在采用插值算法的上采样模块后串联一个卷积核大小为1*1的卷积模块，可以消除转置卷积、反卷积等常规上采样算法的缺陷，显著提高模型的准确率；与5*5，7*7等更大的卷积核相比，优选大小为3*3的卷积核，可以增强模型的非线性映射能力，提高模型的准确率，同时显著减少所需要的模型参数和计算量，提高模型的计算速度。

进一步地，步骤3所述规范化层采用的算法包括批规范化(Batchnormalization)、层规范化(Layer normalization)、实例规范化(Instancenormalization)、组规范化(Group normalization)、可转换规范化(Switchablenormalization)、滤波响应规范化(Filter response normalization)、移动平均批规范化(Moving average batch normalization)等。优选的，所述规范化层采用的算法是可转换规范化。

进一步地，步骤3所述激活层采用的激活函数是Tanh、Sigmoid、ReLU、ELU、TLU、Softplus、Swish、Mish等激活函数中的一种。优选的，所述激活层采用的激活函数是Mish。

进一步地，步骤3所述模型参数包括：训练参数、优化器参数、输入和输出参数、模型结构参数。

进一步地，步骤3所述训练参数包括以下至少之一：训练批次样本数、累积梯度步长、最大迭代次数等。

进一步地，步骤3所述优化器参数与所采用的优化算法有关，不同的优化算法其参数也有所不同，有的优化算法不含可设置的参数；优化器参数通常包括以下至少之一：初始学习率、目标学习率、学习率热身次数、学习率调整参数、动量、权值衰减系数等。

进一步地，步骤3所述输入和输出参数包括：输入图像的通道数、图像高度、图像宽度、输出类别数。

进一步地，步骤3所述模型结构参数包括：卷积参数、规范化参数、下采样参数、上采样参数等。其中，卷积参数包括：特征图通道数、卷积核大小、滑动窗步长、图像镶边宽度等；下采样参数与所采用的下采样算法有关，不同的下采样算法其参数也有所不同，有的下采样算法不含可设置的参数，当下采样算法采用池化算法时其参数包括：池化核大小、滑动窗步长等，当下采样算法采用卷积算法时其参数包括：卷积核大小、滑动窗步长等；规范化参数与所采用的规范化算法有关，不同的规范化算法其参数也有所不同，有的规范化算法不含可设置的参数，规范化参数通常包括以下至少之一：组规范化层的分组数、分组大小、滤波响应规范化层的系数等；上采样参数包括放大因子等。

进一步地，步骤4包括以下步骤：

(1)从训练数据集中不重复地随机读取m组图像(1≤m≤n_t)，使用语义分割模型计算得到预测图像，并使用标注图像计算目标函数值；

(2)根据目标函数值，使用优化器更新模型参数；

(3)重复上述步骤(1)到步骤(2)，每次从训练数据集中不重复地随机读取m组图像，计算预测结果与目标函数值，优化模型参数，直到训练数据集中的全部图像完成一次训练。

(4)读取验证数据集，使用语义分割模型计算得到预测图像，并使用标注图像计算评估指标；

(5)重复上述步骤(1)到步骤(4)，读取训练数据集，计算预测结果与目标函数值；优化模型参数；读取验证数据集，计算预测结果与评估指标，直到满足终止条件。所述终止条件为以下至少之一：模型评估指标达到期望、迭代次数大于所述最大迭代次数。

进一步地，步骤4所述预测图像定义为语义分割模型对于输入图像的输出结果，第i张输入图像x_i的预测图像表示为：

其中，函数f代表本发明的语义分割模型。

进一步地，步骤4所述目标函数定义为：

其中：m为一个训练批次的样本数，L为训练损失函数，R为正则化项，y_i为第i张输入图像对应的标注图像。正则化项包括L2正则化、L1正则化等，其中：L2正则化项定义为：

L1正则化项定义为：R＝λ‖w‖₁，式中λ是正则化系数；w是权值矩阵，在模型训练之前使用He算法设置权值矩阵w的初始值，并在模型训练的过程中使用优化器进行更新权值矩阵w。所述目标函数可以不含正则化项。优选的，所述训练损失函数是交叉熵损失函数，无正则化项。

进一步地，步骤4所述优化器采用的算法包括以下至少之一：SGD、RMSprop、Adam、RAdam、Lookahead等；其中的学习率参数可以进行动态调整，调整策略包括训练初始阶段的学习率热身和训练过程中的学习率调整；学习率调整策略使用的算法包括以下至少之一：线性、阶跃式、指数式、余弦式、循环式等。优选的，所述优化算法是带有动量和Nesterov加速梯度的随机梯度下降(SGD)算法；训练过程中的学习率调整策略为余弦式学习率衰减。

进一步地，步骤4所述模型评估指标包括以下至少之一：敏感度(Recall)、特异度(Specificity)、精确度(Precision)、准确度(Accuracy)、F1分值、Dice系数、交并比(IoU)、Jaccard系数、预测错误率等。对于类别c，图像的像素分为正样本和负样本，属于类别c的像素为正样本，不属于类别c的像素为负样本；标注为正样本且预测为正样本的像素数为TP，标注为正样本且预测为负样本的像素数为FN，标注为负样本且预测为正样本的像素数为FP，标注为负样本且预测为负样本的像素数为TN。所述敏感度定义为：TPR＝TP/(TP+FN)；特异度定义为：TNR＝TN/(TN+FP)；精确度定义为：PPV＝TP/(TP+FP)；准确度定义为：ACC＝(TP+TN)/(TP+TN+FP+FN)；F1分值和Dice系数相同，其定义为：F1＝Dice＝2TP/(2TP+FP+FN)；交并比和Jaccard系数相同，其定义为：IoU＝Jaccard＝TP/(TP+FP+FN)；预测错误率定义为：Err＝C_err/C_total，其中C_err为预测错误的像素总数，C_total为像素总数。优选的，所述模型评估指标为全部类别的准确度，所述终止条件为验证数据集的准确度达到最大。

进一步地，步骤5所述预测数据集包括用于预测的雷达遥感数据和光学遥感数据，其中的每张图像与步骤2所述样本数据集中输入图像的宽度、高度、分辨率、存储文件格式、通道数相同。

进一步地，步骤5所述地物类型的识别结果是与预测数据集中每张图像一一对应的图像，其宽度、高度、分辨率与输入图像相同，每张图像包括一个通道，图像中的每个像素值代表该像素所对应地理区域范围的类别标签的预测结果。

一种基于语义分割的地物识别与分类装置，其包括：

样本数据集获取单元，用于读取对地观测多源遥感图像，使用雷达遥感数据、光学遥感数据构建样本数据集；

训练和验证数据建立单元，用于根据样本数据集建立训练数据集和验证数据集；

模型设置单元，用于建立语义分割模型，设置语义分割模型的模型参数；

模型训练单元，用于输入训练数据集和验证数据集，对语义分割模型进行训练，得到训练完成的语义分割模型；

地物类型识别单元，用于向训练完成的语义分割模型输入预测数据集，得到地物类型的识别结果。

一种计算机，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上面所述方法中各步骤的指令。

与现有技术相比，本发明的积极效果为：

本发明提供的方法利用对地观测遥感数据，对地物类型进行智能识别，将雷达遥感数据和光学遥感数据同时作为模型的输入，克服了单一光学遥感技术易受云雾遮挡和大气能见度影响、可见光传感器在弱光照条件下难以发挥作用的弱点，解决了传统的图像处理技术需手工设计和提取特征的问题。与经典CNN模型相比，本发明的语义分割模型结构简单、计算速度快、消耗内存少。与FCN、SegNet、U-Net等模型相比，本发明的语义分割模型针对遥感图像进行了优化，卷积层使用权值标准化算法、规范化层使用可转换规范化算法、激活层使用Mish激活函数，上采样使用双线性插值并串联1*1卷积模块，效果好，准确率高。

附图说明

图1为本发明提供的语义分割模型结构示意图。

图2为本发明提供的语义分割模型中卷积模块的结构示意图。

具体实施方式

下面通过具体实施例并配合附图，对本发明作进一步的说明。

本实施例的一种基于语义分割的地物识别与分类方法的模型结构如图1所示。下面以利用哨兵1号卫星SAR雷达数据和哨兵2号卫星多光谱数据进行土地类型识别为例进行详细说明。

第一步，读取对地观测多源遥感图像，建立样本数据集。本实施例中的对地观测多源遥感图像包括2016～2017年哨兵1号卫星SAR雷达图像数据、哨兵2号卫星多光谱图像数据和MODIS卫星土地分类数据，一共541986张图像。其中，哨兵1号卫星SAR雷达图像包括VV和VH共2个通道，哨兵2号卫星多光谱图像包括可见光、近红外、短波红外等13个通道。样本数据集包括180662组图像，每组图像包括2张图像，分别是输入图像和标注图像。输入图像包括15个通道，第1～2通道是哨兵1号卫星SAR雷达图像，第3～15通道是哨兵2号卫星多光谱图像。标注图像是单通道的MODIS卫星土地分类数据图像。每张图像宽度为256像素、高度为256像素，分辨率为10m，图像文件格式为GeoTIFF。

第二步，第一步得到的样本数据集包括180662组图像，从中随机抽取10％组图像设置为验证数据集x’，约18066组图像数据；剩下的162596组图像设置为训练数据集x。

第三步，建立语义分割模型，其结构如图1和图2所示。其中，下采样模块采用最大池化算法，上采样模块采用双线性插值算法，卷积层采用权值标准化算法，规范化层采用可转换规范化算法，激活层采用Mish激活函数。

模型训练参数设置如下：训练批次样本数为8、最大迭代次数为50。

模型优化器使用带动量和Nesterov加速梯度的随机梯度下降(SGD)算法，其参数设置如下：学习率为0.01、动量为0.9。

输入和输出参数设置如下：输入图像通道数为15、图像高度为256、图像宽度为256、输出类别数为18。

模型结构参数设置如下：编码器中卷积模块E₁₁的输出通道数为64，卷积模块E₂₁、E₃₁的输出通道数为其输入通道数的2倍，卷积模块E₁₂、E₂₂、E₃₂的输出通道数不变，各卷积核的大小为3*3、滑动窗步长为1、图像镶边宽度为1；下采样池化核大小为2*2、滑动窗步长为2。中心模块中卷积模块C₁的输出通道数为其输入通道数的2倍，卷积模块C₂的输出通道数不变，各卷积核的大小为3*3、滑动窗步长为1、图像镶边宽度为1。解码器中卷积模块D₃₂、D₃₁、D₂₂、D₂₁、D₁₂、D₁₁的输出通道数为其输入通道数的一半，卷积模块D₃₀、D₂₀、D₁₀的输出通道数不变；卷积模块D₃₁、D₃₀、D₂₁、D₂₀、D₁₁、D₁₀的卷积核大小为3*3、滑动窗步长为1、图像镶边宽度为1；卷积模块D₃₂、D₂₂、D₁₂和点卷积模块的卷积核大小为1*1、滑动窗步长为1、图像镶边宽度为0；上采样的放大因子为2。

第四步，使用训练数据集x和验证数据集x’对模型进行训练，得到训练完成的语义分割模型。训练损失函数是交叉熵损失函数，无正则化项。在本发明的其它实施例中，还可以使用其他形式的损失函数和正则化项。训练过程的具体步骤如下：

(1)从训练数据集x中不重复地随机读取8组图像，计算预测结果与目标函数值；

(2)使用优化器更新模型参数；

(3)重复上述步骤(1)到步骤(2)，直到完成全部训练数据集的一次训练；

(4)读取验证数据集x’，计算预测结果与准确度；

(5)重复上述步骤(1)到步骤(4)，读取训练数据集，计算预测结果与目标函数值；优化模型参数；读取验证数据集，计算预测结果与准确度，直到准确度达到最大值或者迭代次数大于50次。

第五步，使用训练完成的语义分割模型，输入预测数据集，即一组输入图像，其中的每张图像包括15个通道，第1～2通道是哨兵1号卫星SAR雷达图像，第3～15通道是哨兵2号卫星多光谱图像。每张图像宽度为256像素、高度为256像素，分辨率为10m，图像文件格式为GeoTIFF。模型读取输入图像，输出土地类型的识别结果。

根据上述实施例，对模型进行训练，可获得如下进步效果：在训练数据集上，模型对土地类型的预测平均准确度为99.5％、敏感度为96.9％、特异度为99.9％、F1分值为0.98、交并比为95.9％；在验证数据集上，模型对土地类型的预测平均准确度为94.2％、敏感度为82.3％、特异度为99.6％、F1分值为0.84、交并比为75.9％。

在本发明方案的具体步骤中，可以有其它替代方式或变形方式，例如：

1、步骤一除了读取对地观测多源遥感图像外，还可以读取数字高程DEM数据。

2、步骤二除了建立训练数据集和验证数据集，还可以建立测试数据集。从所述样本数据集中随机抽取n_t组图像设置为训练数据集，n_v组图像设置为验证数据集，剩下的M-n_t-n_v组图像设置为测试数据集，其中1<n_t+n_v<M。所述训练数据集、验证数据集和测试数据集中的图像不重复。

3、步骤三所述语义分割模型的编码模块还可以包括跳跃连接，即：卷积模块E_l1的输入特征图越过卷积模块E_l1和E_l2，直接与卷积模块E_l2的输出特征图进行通道拼接；假设卷积模块E_l1的输入特征图通道数为A、卷积模块E_l2的输出特征图通道数为B，则拼接后的特征图通道数为A+B。

4、步骤三所述语义分割模型中的下采样模块还可以采用标准卷积、空洞卷积、扩张卷积等卷积算法。

5、步骤三所述模型结构参数还可以包括空洞卷积的空洞率、扩张卷积的扩张率等参数。

6、步骤四所述训练损失函数还可以包括所述模型评估指标，即：F1分值、Dice系数、交并比、Jaccard系数等。

7、步骤五还可以向训练完成的语义分割模型输入测试数据集，得到模型的预测结果和测试集预测准确度。

显然，以上所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于语义分割的地物识别与分类方法，其步骤包括：

1)获取各区域的多源遥感数据，将同一区域的多源遥感数据合并为一个样本数据，得到一样本数据集；

2)建立语义分割模型，并设置模型参数；然后利用所述样本数据集对该语义分割模型进行训练；其中所述语义分割模型由编码器、中心模块和解码器串联组成；所述编码器由N个编码模块串联组成，所述解码器由N个解码模块和一个点卷积模块串联组成，所述中心模块由卷积模块C₁、卷积模块C₂串联组成；每个编码模块E_l由卷积模块E_l1、卷积模块E_l2和下采样模块DS_l串联组成，每个解码模块D_l由上采样模块US_l、卷积模块D_l2、卷积模块D_l1和卷积模块D_l0串联组成，其中l＝1,2,…N；卷积模块C₁接收编码模块E_N中下采样模块DS_N输出的特征图FM_eN3，进行计算后得到特征图FM_c1；卷积模块C₂对特征图FM_c1进行计算后得到特征图FM_c2，并将其输出至解码模块D_N中的上采样模块US_N；

3)利用训练后的语义分割模型对待识别遥感数据进行处理，得到该待识别遥感数据的地物类型的识别结果。

2.如权利要求1所述的方法，其特征在于，所述多源遥感数据包括雷达遥感数据和光学遥感数据；所述雷达遥感数据的通道数为C_R，所述光学遥感数据的通道数为C_O。

3.如权利要求2所述的方法，其特征在于，所述样本数据集包括M个样本数据，每个样本数据包括一组图像，即输入图像A和标注图像A’；其中输入图像A由对应于同一区域的雷达遥感图像A₁和光学遥感图像A₂通道堆叠而成，通道数为C_R+C_O，对输入图像A进行标注得到对应的标注图像A’，标注图像A’包括一个通道，其中的每个像素值代表对应像素所对应地理区域范围的类别标签。

4.如权利要求1所述的方法，其特征在于，编码模块的数量N＝Max(log₂(Min(W,H)/32),1)；其中W为输入图像的宽度，H为输入图像的高度。

5.如权利要求1所述的方法，其特征在于，卷积模块E_l1对收到的数据进行计算后得到特征图FM_el1，卷积模块E_l2对特征图FM_el1进行计算后得到特征图FM_el2，下采样模块DS_l对特征图FM_el2进行计算后得到特征图FM_el3。

6.如权利要求1所述的方法，其特征在于，上采样模块US_l对接收到的特征图进行计算后得到特征图FM_dl3，卷积模块D_l2对特征图FM_dl3进行计算后得到特征图FM_dl2；特征图FM_dl2的通道数为d，与其相对应的编码器中卷积模块E_l2输出的特征图FM_el2通道数为e，将特征图FM_el2中央区域裁剪至与特征图FM_dl2相同的大小后与特征图FM_dl2进行拼接，合并为一个通道数为c＝d+e的特征图FM_cl2；卷积模块D_l1对特征图FM_cl2进行计算后得到特征图FM_dl1，卷积模块D_l0对特征图FM_dl1进行计算后得到特征图FM_dl0；点卷积模块对卷积模块D₁₀输出的特征图FM_d10进行计算后得到预测图像。

7.如权利要求1所述的方法，其特征在于，卷积模块E₁₁的输入通道数N_c＝C_R+C_O，输出通道数为N_f；对于l＝2,…N，卷积模块E_l1的输出通道数为输入通道数的2倍；对于l＝2,…N，卷积模块E_l2的输出通道数和输入通道数相同；卷积模块C₁的输出通道数为输入通道数的2倍；卷积模块C₂的输出通道数和输入通道数相同；对于l＝1,…N，卷积模块D_l2、D_l1的输出通道数为输入通道数的1/2，卷积模块D_l0的输出通道数和输入通道数相同。

8.如权利要求1所述的方法，其特征在于，利用所述样本数据集对该语义分割模型进行训练的方法为：使用语义分割模型对样本数据进行计算得到预测图像，并使用对应标注图像计算目标函数值；然后根据目标函数值，使用优化器更新语义分割模型的参数，直到满足终止条件；其中，第i张输入图像x_i的预测图像表示为

函数f代表语义分割模型，目标函数为：

m为一个训练批次的样本数，L为训练损失函数，R为正则化项，y_i为第i张输入图像对应的标注图像，w是权值矩阵。

9.如权利要求1所述的方法，其特征在于，上采样模块US_l使用插值算法，卷积模块D_l2的卷积核大小为1*1，其中l＝1,2,…N。

10.如权利要求1所述的方法，其特征在于，卷积模块由卷积层、规范化层和激活层串联组成，其中，卷积层使用权值标准化算法，规范化层使用可转换规范化算法，激活层使用Mish激活函数。

11.一种基于语义分割的地物识别与分类装置，其特征在于，包括：

样本数据集获取单元，用于获取各区域的多源遥感数据，将同一区域的多源遥感数据合并为一个样本数据，得到一样本数据集；

地物类型识别单元，用于向训练完成的语义分割模型输入预测数据，得到该预测数据的地物类型的识别结果。

12.一种计算机，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，其特征在于，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。