CN112991351B

CN112991351B - 遥感图像语义分割方法、装置及存储介质

Info

Publication number: CN112991351B
Application number: CN202110198576.3A
Authority: CN
Inventors: 吴若昊
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2022-05-27
Anticipated expiration: 2041-02-23
Also published as: CN112991351A

Abstract

本公开提供了一种遥感图像语义分割方法、装置及存储介质，用于解决遥感图像语义分割准确性不高的技术问题。本公开提供的装置中包含预处理模块和编解码卷积神经网络。编解码卷积神经网络模型的输入不仅包含现有的数据通道，还包括了多种归一化指数，增强了对特定类别的分割效果。模型的编码路径和解码路径中采用了多组包含多尺度卷积模块的混合提取模块获取不同感受野的特征信息，从而加强了对同物异谱和同谱异物等困难点的分割效果。混合提取模块中还采用了通道间注意力机制来增强特征通道间的特征融合，进一步增强特征提取能力。本公开提高了遥感图像的语义分割的准确性，可应用于多种遥感图像语义分割领域。

Description

遥感图像语义分割方法、装置及存储介质

技术领域

本公开涉及遥感图像处理技术领域，尤其涉及一种遥感图像语义分割方法、装置及存储介质。

背景技术

遥感图像是指记录各种地物电磁波大小的照片，主要分为航空相片和卫星相片。当前应用最多的遥感图像多来自多波段遥感，即把地面辐射范围较宽的连续的电磁波谱分割成若干个较窄的波段，以多波段摄影或多通道扫描的方式，在同一时间获得同一目标不同波段光谱信息的遥感技术。

目前，常用的高光谱遥感图像数据按照所使用的成像设备不同，通常可以分4波段、6波段、7波段等类型，以7个波段为例，7个波段的光波波长范围的划分如下：

TM1蓝光波段：波长范围0.45～0.52μm，对水体穿透强，对叶绿素与叶色素反映敏感，有助于判别水深及水中叶绿素分布以及水中是否有水花等。

TM2绿光波段：波长范围0.52～0.6μm，对健康茂盛植物反射敏感，可用于探测植物的生长状况，区分林型、树种和反映水下特征。

TM3红光波段：波长范围0.62～0.69μm，叶绿素的主要吸收波段，反映不同植物叶绿素吸收、植物健康状况，可用于区分植物种类和植物覆盖率，广泛用于地貌、岩性、土壤、植被、水中泥沙等。

TM4近红外波段：波长范围0.76～0.96μm，对绿色植物类别差异敏感，可用于农作物调查、农作物长势测量和水域测量等。

TM5中红外波段：波长范围1.55～1.75μm，水体的吸收波段，可反映含水量，可用于土壤湿度和植物含水量调查、水分分析、农作物长势分析等。此波段也可反映云和雪。

TM6热红外波段：波长范围1.04～1.25μm，可以根据辐射响应的差别区分农林覆盖长势，分析表层湿度、水体岩石等，也可监测与人类活动有关的热特征。

TM7中红外波段：波长范围2.08～3.35μm，水体的强吸收带，可用于区分岩石类型、岩石热蚀度，探测与交代岩石有关的粘土矿物。

遥感图像的波段数量由成像设备和具体用途而定，常用的有4波段(TM1～TM4)和7波段(TM1～TM7)。地面物体由于其内部组成和表面特性的不同，一般会有不同的光谱特性，总存在辐射差值比较明显的波段。利用物体在不同光谱上的特性，可以在特定的波段上对目标物体进行识别和探测。

遥感图像语义分割是将遥感图像中的有用数据提取出来转化为信息的一种技术，指根据物体不同光谱中的特征信息将不同类别的物体分割开来，该技术在广泛应用于空间测绘、农业、地理、城市规划等领域。在农业领域可以通过对遥感图像的语义分割可以分析多种农作物的种植面积和生长状况、在地图构建领域可以通过对遥感图像的语义分割提取道路信息快速实现新建道路的建模、在城市发展规划领域可以通过对遥感图像中建筑物的语义分割分析城市扩张变迁等。与常规的图像相比，遥感图像中包含的语义信息更加丰富，语义分割难度也更大。

基于核聚类的遥感图像语义分割方法是一个较常用的遥感图像语义分割方法，该方法是一个迭代过程，先计算当前点相对附近点像素均值的偏移量，并移动该点到其偏移均值，然后以此点位置为新的起始点，继续移动，直到满足一定的结束条件。基于核聚类的遥感图像分割方法需要根据具体样本选择合适的窗口大小，通用性较差，且存在一定的过分割和欠分割的现象，遥感图像语义分割的准确率不高。

发明内容

有鉴于此，本公开提供一种遥感图像语义分割方法、装置及存储介质，用于解决遥感图像语义分割准确性不高的技术问题。

图1为本公开提供的遥感图像语义分割方法的步骤流程图，该方法包括：

步骤101.对N通道的遥感图像进行像素值归一化处理得到第一归一化特征图；

其中，N为成像设备输出的遥感图像的通道数量。

步骤102.使用M种归一化指数对N通道的遥感图像进行指数归一化处理得到第二归一化特征图；

所述归一化指数包括但不限于：归一化植被指数、归一化建筑指数、归一化水指数、归一化差异雪指数、归一化差异湿度指数、归一化燃烧指数。所述M种归一化指数可以为其中多种归一化指数的组合。其中M为归一化指数的种类个数。

步骤103.将所述第一归一化特征图与所述第二归一化特征图进行通道叠加融合后输出第三归一化特征图；

步骤104.通过编解码卷积神经网络单元对所述第三归一化特征图进行语义分割输出K通道的语义分割结果图；

所述编解码卷积神经网络单元中的编码路径中采用了多组包括混合提取模块的下采样模块，相应地在解码路径中也采用了多组包括混合提取模块的上采样模块；所述混合提取模块中采用多个具有不同尺寸的卷积核的卷积模块提取不同感受野的特征信息，所述混合提取模块中还采用通道间注意力机制进行通道间特征提取。其中，K为目标物体的分割种类数量。

进一步地，为提升遥感图像语义分割的效果，所述方法还包括：

步骤105.从所述N通道的遥感图像中提取红绿蓝RGB三通道特征图；

步骤106.通过全连接条件随机场叠加所述编解码卷积神经网络单元输出的K通道的语义分割结果图和所述RGB三通道特征图，输出调整优化后的K通道的语义分割结果图。

进一步地，在所述编解码卷积神经网络单元中，通过多个下采样模块逐级从不同尺度提取输入特征图中的特征信息；通过多个上采样模块逐级融合相应下采样模块输出的相同尺寸的特征图和解码路径中的上一级输出的特征图，逐级提取特征信息并降低特征图的通道数量；

所述混合提取模块包括二尺度混合提取模块、三尺度混合提取模块和四尺度混合提取模块。

进一步地，所述N通道的遥感图像所包括的N个通道分别为：蓝光波段TM1、绿光波段TM2、红光波段TM3、近红外波段TM4、中红外波段TM5、热红外波段TM6、远红外波段TM7；

所述M种归一化指数分别为：归一化植被指数NDVI、归一化建筑指数NDBI、归一化水指数NDWI、归一化差异雪指数NDSI、归一化差异湿度指数NDMI、归一化燃烧指数NBR；

所述K通道的语义分割结果图包括的K个通道分别对应“植被”、“建筑”、“水体”、“道路”、“其他”5种类别。

图2为本公开提供的一种遥感图像语义分割装置的结构示意图，该装置200中的各功能模块可以采用软件、硬件或软硬件相结合的方式实现。该装置200包括：

像素值归一化单元211，用于对N通道的遥感图像进行像素值归一化处理得到第一归一化特征图；

指数归一化处理单元212，用于使用M种归一化指数对N通道的遥感图像进行指数归一化处理得到第二归一化特征图；

融合单元213，用于将所述第一归一化特征图与所述第二归一化特征图进行通道叠加融合后输出第三归一化特征图；

编解码卷积神经网络单元221，用于对所述第三归一化特征图进行语义分割输出K通道的语义分割结果图；

所述编解码卷积神经网络单元221中的编码路径中采用了多组包括混合提取模块的下采样模块，相应地在解码路径中也采用了多组包括混合提取模块的上采样模块；所述混合提取模块中采用多个具有不同尺寸的卷积核的卷积模块提取不同感受野的特征信息，所述混合提取模块中还采用通道间注意力机制进行通道间特征提取。其中，N为成像设备输出的遥感图像的通道数量，M为归一化指数的种类个数，K为目标物体的分割种类数量。

进一步地，为提升遥感图像语义分割的效果，所述装置200还包括：

RGB图像提取单元222，用于从所述N通道的遥感图像中提取红绿蓝RGB三通道特征图；

CRF处理单元223，用于通过全连接条件随机场叠加所述编解码卷积神经网络单元输出的K通道的语义分割结果图和所述RGB三通道特征图，输出调整优化后的K通道的语义分割结果图。

进一步地，所述编解码卷积神经网络单元221的编码路径中包括浅层特征提取模块和多个下采样模块，解码路径中包括多个上采样模块和分割输出模块；

所述浅层特征提取模块用于提取特征图的浅层特征；

所述多个下采样模块所使用的卷积单元步长逐级增大、通道数逐级增多，用于从不同尺度提取输入特征图中的特征信息；

所述多个上采样模块用于逐级融合相应下采样模块输出相同尺寸的特征图和解码路径中的上一级输出的特征图，逐级提取特征信息并降低特征图的通道数量；

分割输出模块用于融合最后一级上采样模块输出的特征图与所述浅层特征提取模块输出的特征图，进行特征提取和通道降维后，输出语义分割结果图；

所述浅层特征提取模块、多个下采样模块、多个上采样模块和分割输出模块中都包括有混合提取模块。

进一步地，所述混合提取模块包括二尺度混合提取模块、三尺度混合提取模块和四尺度混合提取模块；

混合提取模块中包括注意力模块、第一卷积模块、第二卷积模块和多个不同尺度的卷积模块；

多个不同尺度的卷积模块从不同尺度分别提取混合提取模块的输入特征图的特征信息后，输出的特征图经通道叠加后输入第一卷积模块进行降维处理；所述多个不同尺度的卷积模块的步长与该混合提取模块的步长相同；

注意力模块对对第一卷积模块输出的特征图进行全局平均池化处理，然后经卷积模块提取特征，最后通过激活函数输出经权重分配后特征图；

第二卷积模块用于采用与该混合提取模块的步长相同的步长提取混合提取模块的输入特征图的特征信息；

第一卷积模块输出的特征图与注意力模块输出的特征图相乘后再与第二卷积模块输出的特征图相加，相加后输出的特征图即为该混合提取模块的输出。

基于本公开提供的遥感图像语义分割装置，本公开还提供了一种针对该遥感图像语义分割装置的模型训练方法，该方法：

使用原始图像样本和标签图像样本对所述遥感图像语义分割装置进行训练，通过所选用的优化算法不断迭代更新模型中的参数，通过不断调整模型参数使损失函数最小或达到训练结束条件。

进一步地，所述训练方法采用的损失函数为交叉熵与Lovasz-Softmax函数的加权和；所使用的优化算法为Adam算法。

图3为本公开一实施例提供的一种电子设备结构示意图，该设备300包括：诸如中央处理单元(CPU)的处理器310、通信总线320、通信接口340以及存储介质330。其中，处理器310与存储介质330可以通过通信总线320相互通信。存储介质330内存储有计算机程序，当该计算机程序被处理器310执行时即可实现本公开提供的方法的各步骤。

其中，存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。另外，存储介质还可以是至少一个位于远离前述处理器的存储装置。处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开提供的遥感图像语义分割装置中包含预处理模块和编解码卷积神经网络。编解码卷积神经网络模型的输入不仅包含现有的数据通道，还包括了多种归一化指数，增强了对特定类别的分割效果。模型的编码路径和解码路径中采用了多组包含多尺度卷积模块的混合提取模块获取不同感受野的特征信息，从而加强了对同物异谱和同谱异物等困难点的分割效果。混合提取模块中还采用了通道间注意力机制来增强特征通道间的特征融合，进一步增强特征提取能力。本公开提高了遥感图像的语义分割的准确性，可应用于多种遥感图像语义分割领域。

附图说明

为了更加清楚地说明本公开实施例或者现有技术中的技术方案，下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本公开实施例的这些附图获得其他的附图。

图1为本公开提供的遥感图像语义分割方法的步骤流程图；

图2为本公开提供的一种遥感图像语义分割装置的结构示意图；

图3为本公开一实施例提供的一种电子设备结构示意图；

图4为本公开一实施例提供的遥感图像语义分割模型的结构示意图；

图5为该实施例提供的编解码卷积神经网络单元网络结构示意图；

图6A～图6C为本公开一实施例提供的基于多尺度分析和注意力机制的混合提取模块(MixBlock)结构示意图；

图7为本公开一实施例中上采样模块和混合提取模块中所使用的叠加模块Concatenate的功能示意图；

图8为本公开一实施例中训练样本数据的标注示例。

具体实施方式

在本公开实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本公开实施例。本公开实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

由于遥感图像的对比度通常较低，不同区域之间的边界也较模糊，同时具有图像信息容量大、形状结构复杂等特点。传统的图像分割方法大都难以应对遥感图像语义分割的任务，难以实现自动化的分割。

为了改善同谱异物和异物同谱点的分割准确率，增强特征图的组合表征，进而进一步提升遥感图像语义分割的准确率，本公开提出了一种基于多尺寸和注意力机制的遥感图像语义分割模型以及基于该模型实现的遥感图像语义分割的方法。以下结合实施例对本公开提出的遥感图像语义分割模型和遥感图像语义分割方法进行详细描述。

由于不同的成像设备输出的遥感图像的光谱波段通道数量不同，本公开实施例中以包含7个光谱波段的遥感图像为例进行说明，但本公开不具体限定遥感图像所包含的光谱通道的数量。

遥感图像语义分割技术在不同领域的应用对应的分割类别通常是不同的，如在农牧业领域侧重于不同植物类型的分割，在地图构建领域侧重于对道路的分割等。本公开实施例中以5类目标分割类型(例如植被、建筑、水体、道路、其他)为例进行说明，但本公开不具体限定被分割目标物体的种类。

图4为本公开一实施例提供的遥感图像语义分割模型的结构示意图，7通道的遥感图像经过预处理后得到13个通道的归一化特征图，编解码卷积神经网络单元对输入的归一化特征图进行第一级语义分割，编解码卷积神经网络单元输出的分割结果与遥感图像的RGB三通道图像通过全连接条件随机场CRF处理后得到语义分割结果图。

传统的图像通常是由红绿蓝RGB三原色可见光谱通道构成的3通道图像，而遥感图像除了可见光波段外，还有多个不可见光波段信息，本公开实施例中以包含7个光谱波段的遥感图像为例进行说明，这7个光谱波段通道分别为：“蓝光波段”(简称TM1)、“绿光波段(简称TM2)”、“红光波段(简称TM3)”、“近红外波段(简称TM4)”、“中红外波段(简称TM5)”、“热红外波段(简称TM6)”、“远红外波段(简称TM7)”。得益于额外的波段信息，可以将多个通道进行组合从而获得更显著的特征信息。

7个通道图像输入之后为归纳各通道中各像素值的统计分布性，同时为配合后续编解码卷积神经网络使用的ReLu激活函数特性，对遥感图像各通道的像素值进行归一化处理，将像素值[0,255]映射到[-1,1]值域空间。

为了增强多种被分割目标物体的类别信息，本公开实施例还在预处理阶段对遥感图像的光谱波段通道数据进行了多种归一化指数处理。该实施例中，采用了6种类型的归一化指数，分别为：

1.归一化植被指数：

2.归一化建筑指数：

3.归一化水指数：

4.归一化差异雪指数：

5.归一化差异湿度指数：

6.归一化燃烧指数：

将归一化后的7波段图像与上述6种归一化指数以通道叠加的方式在融合单元进行融合，得到13通道的归一化特征图作为编解码卷积神经网络模型的输入。

图4中的编解码卷积神经网络单元的输入为经过预处理后的13通道的归一化特征图，输出为经过softmax逻辑回归函数归一化后的5个通道的第一级语义分割图，5个通道分别对应“植被”、“建筑”、“水体”、“道路”、“其他”5种类别。该编解码卷积神经网络单元遵循编码-解码(Encoder-Decoder)的神经网络结构。

图5为该实施例提供的编解码卷积神经网络单元网络结构示意图，需要说明的是，图5及图6中的每个卷积Conv层(包括Mix2/3/4Block混合提取模块中的每个Conv卷积层)后都布置有批量归一化层(Batch Normalization，BN)和线性修正单元(Rectified LinearUnit，ReLU)，为简洁清晰地演示网络结构，这两个单元在图5和图6中未示出。

与常规的图像语义分割数据不同，遥感图像有其独有的特点。遥感图像中通常存在“同物异谱”和“同谱异物”的像素点，使用常规的小卷积核难以区分这些像素点的类别，为了提高对这些难以分割像素点的分割能力，编解码神经网络单元采用了多尺度分析的方法，同时，为了进一步增强多个特征通道之间的组合能力，模型中还引入了通道间注意力机制。

图5中左侧一列为编码路径，用来提取输入遥感图像中的特征信息，右侧一列为解码路径，用来从特征图中还原图像尺寸，恢复图像中的语义信息，进而输出分割图。

在左侧编码路径中的浅层特征提取模块用于提取特征图的浅层特征，即提取微观性特征，特征图输入后输出尺寸不变。该实施例中，浅层特征提取模块由两32通道卷积层和两个32通道混合提取模块MixBlock构成，两个卷积层的卷积核尺寸为3*3，步长s为1，两个混合提取模块分别为Mix3Block和Mix2Block。混合提取模块的结构后续说明。

在左侧编码路径中的第一下采样模块至第五下采样模块的通道数逐级增多，步长逐级增大，由小尺寸到大尺寸提取输入特征图中的特征。该实施例中，第一下采样模块至第五下采样模块每个模块中的最后一层混合提取模块的步长为2，故每经过一个下采样模块，特征图尺寸减小为输入时的1/2，且通道数量增加32。

第六下采样模块的步长为1，通道数比前一级增加32。最终，第六下采样模块输出的特征图的大小为原来的1/32。

每一个下采样模块中都包含多个混合提取模块，用于在该模块输入的特征图上提取不同尺度的信息。

右侧解码路径中，特征图经过多次上采样后，尺寸恢复至原输入尺寸。每一个上采样模块的输入分为两部分，一部分来自于前一个模块的输出，另一部分来自于特征图尺寸对应的下采样模块的输出。

第一至第五上采样模块中的每个上采样模块中都包括叠加Concatenate模块、混合提取MixBlock模块、卷积子模块和上采样Upsample子模块。前一个模块输出的特征图与对应尺寸的下采样模块输出的特征图经Concatenate通道叠加后，分别经过混合提取模块、卷积子模块和上采样子模块处理后输出给下一级模块。

例如，第二上采样模块的输入来自于解码路径中第一上采样模块和编码路径中输出同样尺寸的特征图的第四下采样模块。输入特征图经过上采样模块的上采样操作(Upsample)处理后，输出特征图的尺寸变为输入特征图的两倍，其中上采样操作(Upsample)采用双线性插值算法实现。为了增加对特征图的复用，提升语义分割结果中的细节信息，解码路径中融合了编码路径中对应尺寸大小的特征图。

上采样模块用于提取来自上一层上采样模块或最后一层下采样模块输出的特征图中特征信息，同时降低特征图的通道数量。

经过5个上采样模块的特征提取后，第五上采样模块输出的特征图与浅层特征提取模块输出的特征图，经过分割输出模块进一步特征提取和通道降维，输出最终的语义分割结果图。

分割输出模块中包括叠加模块混合提取模块及多个卷积模块，通过采用注意力机制的混合提取模块进一步提取图像特征，通过多个卷积模块进行通道降维，最终通过一层具有与目标物体分类数量相同通道数量的卷积层输出语义分割结果图，该实施例为5通道语义分割结果图。

图6A～图6C为本公开一实施例提供的基于多尺度分析和注意力机制的混合提取模块(MixBlock)结构示意图，该实施例中提供的混合提取模块有三种，分别为二尺度混合提取模块Mix2Block、三尺度混合提取模块Mix3Block和四尺度混合提取模块Mix4Block。

每个混合提取模块都包括有多个具有不同尺寸卷积核的卷积模块，通过多尺寸卷积模块从多个尺度上提取图像特征，以增强分割效果。如图所示，二尺度、三尺度和四尺度混合提取模块分别包含2个、3个和4个不同尺度的卷积模块对输入的特征图进行特征提取，4种不同尺度的卷积模块所使用的卷积核为3*3,5*5,7*7和9*9。以二尺度混合提取模块Mix2Block中的卷积模块“Conv n/2 3*3，s”为例，Conv代表卷积层，n为输入的特征图通道数量，2代表该混合提取模块为二尺度混合提取模块，n/2代表将输入特征图的通道数量变为原来的1/2，3*3代表卷积核尺寸，s代表步长，s的值取决于混合提取模块的步长值，例如当使用混合提取模块的参数为“Mix2Block，128,s＝2”时，其内部用于从不同尺度提取特征的卷积模块“Conv n/2 3*3，s”和“Conv n/2 5*5，s”的s就等于2。

在混合提取模块中，通过多个不同尺度的卷积模块对输入特征图进行特征提取后，多个不同尺度的卷积模块输出的特征图再通过叠加模块进行通道叠加后输出特征图的通道数量还原为输入特征图的通道数量，然后再经过具有1*1卷积核的第一卷积模块降维后，一路输出进入注意力模块，另一路输出与注意力模块的输出相乘。

注意力模块采用注意力机制进行特征提取，运行原理是在选择特征的时候不是从N个特征选择一个，而是计算N个输入信息的加权平均，再输入网络中计算。注意力模块中，第一卷积模块输出的特征图经过全局平均池化模块进行权值化处理后，再经过第三卷积模块和第四卷积模块进行特征提取后，最后进入激活函数模块(例如Sigmoid层)实现权重分配后的输出数据作为注意力模块的输出。第三卷积模块和第四卷积模块这两个卷积模块的作用在于对全局平均池化的特征图进行特征提取和维度的转换，因为经过全局平均池化之后的特征图尺寸变成了1*1，为了限制模型复杂度，引入这两个1*1的卷积模块(可以理解为全连接层)，进行降维-ReLU-升维的操作，降低参数量和计算量，增加模型的拟合程度。

注意力模块输出的特征图与第一卷积模块输出的结果相乘

后得到结果，再与第二卷积模块输出的特征图的每个元素逐元素相加

相加后的结果作为混合提取模块的输出结果。该步骤的作用是，输入的特征图经过注意力模块的权重分配后，在原始输入图上进行加权求和，从而为更重要的特征分配以更高权重。

图7为本公开实施例中上采样模块和混合提取模块中所使用的叠加模块Concatenate的功能示意图。如图所示，输入的两路3通道的特征图通过叠加模块实现通道叠加后输出6通道的特征图。

为了进一步提升遥感图像语义分割的效果，本公开提供的遥感图像语义分割装置还在编解码卷积神经网络单元之后加了一个条件随机场(Conditional Random Field，CRF)处理单元，该单元通过叠加编解码卷积神经网络的预测值和从遥感图像中分离出来的RGB三通道图像来调整和优化模型分割结果。

本公开一实施例中使用全连接条件随机场(Dense Conditional Random Field，DCRF)来对编解码卷积神经网络的输出进行精细调整和优化。与全连接条件随机场可等同替换的还有马尔科夫随机场(MRF)、高斯条件随机场(G-CRF)等。CRF是一种基于底层图像强度的图像平滑分割技术，本公开采用的全连接条件随机场通过叠加编解码卷积神经网络的预测值和从遥感图像中分离出来的RGB三通道特征图来调整和优化模型分割结果，鼓励相似的像素分配相同的标签，而相差较大的像素分配不同的标签，像素间的差异通过颜色值和实际相对距离有关。采用全连接条件随机场后，图像在边界处的分割更准确。

本公开提供的基于编解码卷积神经网络的遥感图像语义分割装置属于监督学习模型，因此，在将装置应用到实际生产场景当中之前，需要对模型进行训练。训练数据为包含原始图像样本和标签图像样本的数据对。假设本公开实施例采用的原始输入图像为7通道的遥感图像，由于7通道图像无法直接可视化，故此处采用其中3个通道(RGB)组成的彩色图像来表示输入图像。模型最终的分割结果共分为5个种类(植被、建筑、水体、道路、其他)，因此遥感图像对应的标签图对应5种不同的颜色色块(图8以不同灰度示例)。训练数据的标注示例如图8所示。

在对模型(主要指图4中语义分割模块420的部分)进行训练开始之前，需要先对待训练参数进行初始化，本公开实施例可选用从特定分布中随机采样的初始化方法，具体来说，模型中卷积模块即卷积层的权重随机从均匀分布[-a，a]中随机选取，其中a由该层的输入通道数d_in和输出通道数d_out决定，即：

模型的训练是不断调整模型参数使损失函数最小或达到训练结束条件的过程，本公开一实施例采用了两种损失函数进行加权，两种损失函数分别是交叉熵和Lovasz-Softmax。

交叉熵的表达式为：

其中，

为标注的实际值，

为模型预测的输出值，m为类别总数。

Lovasz-Softmax是一种针对图像语义分割指标mIoU优化得到的一种损失函数，其表达式为：

其中，c表示像素的类别。

最终总的损失函数为交叉熵与Lovasz-Softmax的加权和，即：

L＝0.4L_ce+0.6L_ls

在模型的训练阶段，本公开实施例可采用Adam算法作为优化算法，用来不断迭代更新模型中的参数。训练阶段的初始学习率设为0.001，随着训练进行，使用余弦衰减使学习率逐渐减少到0。

基于深度学习的卷积神经网络模型存在大量的参数，需要大量的训练样本数据对其进行训练，但是标注大量的样本数据耗费的人力物力都较多，尤其对于语义分割任务来说，需要对图像中的每个像素点标注类别信息，更加的费时费力。为了最大化地利用现有标注数据，减少模型对训练数据的过拟合，本公开在模型训练阶段可采用多种数据扩增方法，包括随机裁剪、随机旋转、随机缩放、随机亮度调整、随机对比度调整等。

本公开提供的遥感图像语义分割方法和装置，包含数据预处理、编解码卷积神经网络处理步骤和模块。所使用的编解码卷积神经网络模型的输入不仅包含现有的数据通道，还包括了多种归一化指数，增强了对特定类别的分割效果。模型的编码路径和解码路径中采用了多组包含多尺度卷积模块的混合提取模块获取不同感受野的特征信息，从而加强了对同物异谱和同谱异物等困难点的分割效果。混合提取模块中还采用了通道间注意力机制来增强特征通道间的特征融合，进一步增强特征提取能力。优选地，编解码卷积神经网络的输出经过全连接条件随机场的后处理后，进一步修正模型的分割结果。相比现有通用的图像语义分割模型，本公开提供的方案考虑到遥感图像的特点，充分利用了多个通道的数据信息，提高了遥感图像的语义分割的准确性，可应用于多种遥感图像语义分割领域。

应当认识到，本公开的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术，包括配置有计算机程序的非暂时性存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。此外，可按任何合适的顺序来执行本公开描述的过程的操作，除非本公开另外指示或以其他方式明显地与上下文矛盾。本公开描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本公开的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本公开所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本公开所述的方法和技术编程时，本公开还包括计算机本身。

以上所述仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种遥感图像语义分割方法，其特征在于，所述方法包括：

对N通道的遥感图像进行像素值归一化处理得到第一归一化特征图；其中，N为成像设备输出的遥感图像的通道数量；

使用M种归一化指数对N通道的遥感图像进行指数归一化处理得到第二归一化特征图；其中M为归一化指数的种类个数；

将所述第一归一化特征图与所述第二归一化特征图进行通道叠加融合后输出第三归一化特征图；

通过编解码卷积神经网络单元对所述第三归一化特征图进行语义分割输出K通道的语义分割结果图；

所述编解码卷积神经网络单元中的编码路径中采用了多组包括混合提取模块的下采样模块，相应地在解码路径中也采用了多组包括混合提取模块的上采样模块；所述混合提取模块中采用多个具有不同尺寸的卷积核的卷积模块提取不同感受野的特征信息，所述混合提取模块中还采用通道间注意力机制进行通道间特征提取；其中，K为目标物体的分割种类数量。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述N通道的遥感图像中提取红绿蓝RGB三通道特征图；

通过全连接条件随机场叠加所述编解码卷积神经网络单元输出的K通道的语义分割结果图和所述RGB三通道特征图，输出调整优化后的K通道的语义分割结果图。

3.根据权利要求2所述的方法，其特征在于，

在所述编解码卷积神经网络单元中，通过多个下采样模块逐级从不同尺度提取输入特征图中的特征信息；通过多个上采样模块逐级融合相应下采样模块输出的相同尺寸的特征图和解码路径中的上一级输出的特征图，逐级提取特征信息并降低特征图的通道数量；

4.根据权利要求3所述的方法，其特征在于，

所述N通道的遥感图像所包括的N个通道分别为：蓝光波段TM1、绿光波段TM2、红光波段TM3、近红外波段TM4、中红外波段TM5、热红外波段TM6、远红外波段TM7；

5.一种遥感图像语义分割装置，其特征在于，该装置包括：

像素值归一化单元，用于对N通道的遥感图像进行像素值归一化处理得到第一归一化特征图；

指数归一化处理单元，用于使用M种归一化指数对N通道的遥感图像进行指数归一化处理得到第二归一化特征图；

融合单元，用于将所述第一归一化特征图与所述第二归一化特征图进行通道叠加融合后输出第三归一化特征图；

编解码卷积神经网络单元，用于对所述第三归一化特征图进行语义分割输出K通道的语义分割结果图；

所述编解码卷积神经网络单元中的编码路径中采用了多组包括混合提取模块的下采样模块，相应地在解码路径中也采用了多组包括混合提取模块的上采样模块；所述混合提取模块中采用多个具有不同尺寸的卷积核的卷积模块提取不同感受野的特征信息，所述混合提取模块中还采用通道间注意力机制进行通道间特征提取；其中，N为成像设备输出的遥感图像的通道数量，M为归一化指数的种类个数，K为目标物体的分割种类数量。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

RGB图像提取单元，用于从所述N通道的遥感图像中提取红绿蓝RGB三通道特征图；

CRF处理单元，用于通过全连接条件随机场叠加所述编解码卷积神经网络单元输出的K通道的语义分割结果图和所述RGB三通道特征图，输出调整优化后的K通道的语义分割结果图。

7.根据权利要求6所述的装置，其特征在于，所述编解码卷积神经网络单元的编码路径中包括浅层特征提取模块和多个下采样模块，解码路径中包括多个上采样模块和分割输出模块；

所述浅层特征提取模块用于提取特征图的浅层特征；

8.根据权利要求7所述的装置，其特征在于，所述混合提取模块包括二尺度混合提取模块、三尺度混合提取模块和四尺度混合提取模块；

注意力模块对第一卷积模块输出的特征图进行全局平均池化处理，然后经卷积模块提取特征，最后通过激活函数输出经权重分配后特征图；

9.一种模型训练方法，其特征在于，基于如权利要求5至8中任一项遥感图像语义分割装置，该方法包括：

10.如权利要求9所述的训练方法，其特征在于，所述训练方法采用的损失函数为交叉熵与Lovasz-Softmax函数的加权和；所使用的优化算法为Adam算法。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储介质和通信总线，其中，处理器、通信接口、存储介质通过通信总线完成相互间的通信；

存储介质，用于存放计算机程序；

处理器，用于执行存储介质上所存放的计算机程序时，实施权利要求1至4、9至10任一所述的方法步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序当被处理器执行时实施如权利要求1至4、9至10任一所述的方法步骤。