CN114943963B

CN114943963B - 一种基于双分支融合网络的遥感图像云和云影分割方法

Info

Publication number: CN114943963B
Application number: CN202210476213.6A
Authority: CN
Inventors: 翁理国; 鲁晨; 夏旻; 胡凯
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-07-04
Anticipated expiration: 2042-04-29
Also published as: CN114943963A

Abstract

本发明公开了一种基于双分支融合网络的遥感图像云和云影分割方法，该方法以Convolutional vision Transformer中的Transformer模块和条状卷积作为骨干网络，将两者有效结合，使得两个分支能够相互补充，从而更加高效地提取图像中的特征信息。在特征融合方面，使用了双向引导模块使得Transformer分支和条状卷积分支能够相互引导对方进行特征挖掘、提取多尺度上下文信息，提高了不同尺度的云和云影的分割能力。在解码阶段，充分利用两分支提取到的不同层级的特征进行融合上采样，有效融合高级语义信息和空间位置信息，使得云和云影的定位更加准确，分割边界更加详细；同时本方法还是通用的。

Description

一种基于双分支融合网络的遥感图像云和云影分割方法

技术领域

本发明涉及图像分割技术领域，具体为一种基于双分支融合网络的遥感图像云和云影分割方法。

背景技术

云和云影检测是遥感图像处理中至关重要的问题。一方面，云是重要的气象元素，通过观察云的变化能够分析出气候变化，对灾害天气的预测和研究有着重要的意义。另一方面，许多基于遥感技术的应用，如土地覆盖分类、变化检测、水域分割等，受到云层遮挡的影响，经常会出现漏检、误检等问题。因此，对云和云影进行准确识别十分必要。

传统的云检测方法使用单组或多组阈值进行云检测，虽然一定程度上提升了检测精度，但漏判和误判时有发生。而且光谱和阈值的选择严重依赖于先验知识，且易受很多因素的干扰。近年来，深度卷积神经网络(Deep Convolutional Neural Networks，DCNNs)在计算机视觉领域获得巨大成功。然而，经典的DCNNs是为图像分类任务设计的，云和云影分割是一个像素级的分类任务，经典方法并不适用。然而，经典的DCNNs是为图像分类任务设计的，云和云影分割是一个像素级的分类任务，经典方法并不适用。为了实现端到端的像素级分类即语义分割，Long等人在2015年提出了全卷积神经网络(Fully ConvolutionalNetworks，FCNs)，该方法用卷积层替代全连接层，对语义分割任务十分有效。Ronneberger等人提出了U-Net来获取上下文的信息和位置信息。Chen等人提出的DeepLab采用空洞卷积扩大感受野，使用完全连接的条件随机场(Conditional Random Field，CRF)提高模型捕获细节的能力。Zhao等人提出的Pyramid Scene Parsing Network(PSPNet)能够聚合不同区域的上下文信息，从而提高获取全局信息的能力。和传统的阈值法相比，这些深度学习方法可以处理任意尺寸的图像，学习到的特征不需要经过手动调节，大大增加了模型的检测能力。但是DCNNs很难捕捉到长距离的依赖关系，虽然可以通过扩大感受野来缓解这一问题，但终究无法捕获全局特征。

为了获得全局特征，最近的一些研究将原本在自然语言处理任务上表现优异的Transformer扩展到计算机视觉任务上来，并在各种视觉任务中展现出了较好的性能。Dosovitskiy等人提出了专为图像分类设计的Vision Transformer(ViT)将纯Transformer模块直接应用于图像块序列，来实现图像分类，该方法在多个图像分类测试中获得了比卷积更加优秀的结果。但是该方法是针对图像分类任务的，并不适合语义分割任务。为了将Transformer引入都目标检测、语义分割等密集预测任务上来，Wang等人提出了PyramidVision Transforme(PVT)，该方法和ViT一样使用纯Transformer作为backbone，并将金字塔结构引入到Transformer，在缩小特征图的同时降低了计算复杂度和内存占用，对密集预测十分有效。Wu等人提出的Convolutional vision Transformer(CvT)将卷积引入ViT来提高Transformer的性能，以实现两种模型的最佳效果。但这种简单的融合方式在较为复杂的任务特别是在云和云影分割上表现仍然不理想。首先，分割结果不够精确，云和云影的边界分割粗糙。虽然条件随机场(CRF)能够修复边界信息，但这种后处理的方法不能实现端到端的训练。其次，在地表物体和噪声等因素的干扰下，容易出现误检和漏检的情况，导致分割结果不理想。因此我们对此做出改进，提出一种基于双分支融合网络的遥感图像云和云影分割方法。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种基于Transformer和卷积神经网络双分支融合网络的遥感图像云和云影分割方法。利用Transformer和卷积神经网络两个分支分别提取多尺度的语义信息，并优化特征融合方法，搭建了云和云影分割模型，用于解决现有云和云影分割技术所面临得挑战。本发明提供了如下的技术方案：

本发明一种基于双分支融合网络的遥感图像云和云影分割方法，包括如下步骤：

S1、获取数据集，所述数据集包括训练集和验证集；

S2、建立Transformer分支和卷积分支网络模型，并将图像数据输入模型中，通过多次下采样获得遥感图像的不同尺度的特征信息，为特征融合做准备；

S3、利用双向引导模块引导Transformer分支和卷积分支进行特征提取；

S4、在解码阶段，通过解码模块修复像素定位，充分利用两分支提取到的不同层级的特征进行融合上采样；

S5、不断迭代训练模型，进行精准度测试，直至模型达到预想效果。

作为本发明的一种优选技术方案，所述步骤S1具体包括如下步骤：

S1.1、从Landsat-8号卫星和Sentinel-2号卫星上获取高清遥感图像；

S1.2、对遥感图像进行裁剪；

S1.3、对裁剪完成的图像进行标注，使用Labelme对裁剪完成的图片进行人工掩膜标注，标注类型为三类：云、云影和背景；

S1.4、划分数据集，将上述得到的图片按4∶1进行划分，即将80％作为训练集，20％作为验证集。

作为本发明的一种优选技术方案，所述步骤S2的网络模型为双分支融合网络模型，由编码阶段和解码阶段两部分组成；在编码阶段，使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征，融合全局特征和局部特征；在解码阶段，利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样，融合高级语义信息和空间位置信息，实现云和云影的精准定位和精细分割。

作为本发明的一种优选技术方案，Transformer分支的表达式如下：

T₁＝Conv_embed(d_i)

T₂＝MHA{Flatten[Conv_proj(T₁)+d_i]}

其中，d_i表示Transformer分支第i层的输入矩阵(i＝0,1,2,3,4)，x₀表示输入到模型的矩阵，

和/>

分别表示表示Transformer分支的第i层和第i+1层的输出矩阵，/>

表示卷积分支的第i层输出经过多级池化后的特征图，Conv_embed(·)表示卷积嵌入层，Conv_proj(·)表示卷积投影层，Flatten(·)表示将二维数据展开成一维数据，MHA(·)表示多头注意力层，Norm(·)表示层归一化，MLP(·)表示多层感知机，Reshape(·)表示将一维数据变为二维数据。

作为本发明的一种优选技术方案，状卷积分支的表达式如下：

C₁＝δ{norm[Conv_1×3(e_i)]}

C₂＝δ{norm[Conv_3×1(C₁)]}

C₃＝Maxpooling(C₂)

上式中，e_i表示条状卷积分支第i层的输入(i＝0,1,2,3,4)，x₀表示输入的原始图像，

和/>

分别表示表示条状卷积分支的第i层和第i+1层的输出，/>

表示Transformer分支的第i层经过双线性插值上采样成为同相同大小的特征图，δ(·)表示激活函数RELU，norm(·)表示BatchNorm，Conv_1×3(·)和Conv_3×1(·)分别表示卷积核大小为和的条状卷积，Maxpooling(·)表示最大池化层。

作为本发明的一种优选技术方案，解码阶段的具体操作如下：

D_i＝Upsample{δ[DWConv(M_i)]},i＝1,2,3,4

上式中，

和/>

分别表示Transformer分支和卷积分支第i层的输出，D_i表示解码器第i层的输出，Upsample(·)表示双线性插值上采样，δ(·)表示记过函数GELU，DWConv(·)表示深度可分离卷积，Concat(·)表示拼接操作。

作为本发明的一种优选技术方案，所述步骤S5的具体训练过程如下：

S5.1、将做好数据集进行挑选，将全图为背景的进行剔除，然后将训练集和验证集按照8∶2进行分拣，检测结果图像中的每个像素代表了输入图像的对应像素在本次训练过程中的检测结果，若该像素被网络判断为云，则检测结果中的对应位置像素为[128,0,0]，若该像素被判断为云影，则对应位置像素为[0,128,0],否则为[0,0,0]；

S5.2、设置一次训练所选取的样本数为3、最大迭代次数为300、学习率为0.001；

S5.3、进行网络模型训练，在输入原始遥感图像时，正向传播计算得到当前网络的输出图片，利用交叉熵损失函数，计算输出图片与人工标注标签之间的误差，利用链式法则将这个误差反向传播到网络中，在反向传播的过程中，使用Adam优化器进对网络的参数进行更新，完成一轮学习；当训练次数达到预设阈值或测试的准确度达到目标数值后，表明所搭建的网络模型已经符合要求。

本发明的有益效果是：

该种基于双分支融合网络的遥感图像云和云影分割方法，通过Transformer分支和卷积分支分别对遥感图像进行下采样提取多尺度特征，然后基于两分支不同的特性，使用双向引导模块使得两分支能够相互指导对方进行下采样，提高了不同尺度的语义信息和空间信息提取能力。在解码阶段，充分利用双分支提取到的特征进行上采样，逐步引导特征图的恢复，使得云和云影的定位更加准确、分割边界更加清晰，最终生成分割结果。完成了端到端的训练并且无需任何手动调参，使云和云影检测的过程非常简便。该方法在光谱范围有限的情况下十分有用。此外，该方法实现了对云和云影的精准定位，能够产生清晰的分割边界，还提高了检测的精度，并且其检测结果相对于现有的检测模型来说，其性能能到了极大的提升。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例的云和云影分割流程图。

图2是本发明实施例的模型总体架构图。

图3是本发明实施例的双向引导模块图。

图4是本发明实施例的卷积模块图。

图5是本发明实施例的Transformer模块图。

图6是本发明实施例的解码模块图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：本发明一种基于双分支融合网络的遥感图像云和云影分割方法，最主要的工作为搭建并训练模型，该方法输入遥感图像，通过模型推理，最后输出遥感图像云和云影的预测结果。利用深度学习平台实现所提出方法的实现，网络的训练包括数据集的制作及训练调参过程。整体流程图如图1所示，具体包括如下步骤：

1、构建数据集

步骤1、从Landsat-8号卫星和Sentinel-2号卫星上获取高清遥感图像。为了充分验证算法的性能，图像收集的范围很广，包含了多种背景下的云影图像，如城市、乡镇、山地、水域、荒漠等。

步骤2、对遥感图像进行裁剪。由于高清遥感图像通常较大，受GPU显存限制，这些图像将被裁剪为的小图进行训练和预测。

步骤3、对裁剪完成的图像进行标注。使用Labelme对裁剪完成的图片进行人工掩膜标注，标注类型为三类：云、云影和背景。云的像素值为[128,0,0],云影的像素值为[0,128,0],背景的像素值为[0，0，0]，标签的质量将会影响模型的预测结果，所以此过程需要确保准确率。出去质量较差的图片，最后得到了12000张图片。

步骤4、划分数据集。将上述得到的图片按4：1进行划分，其中80％作为训练集，20％作为验证集。因此，训练集共有9600张图片，验证集有2400张图片。

2、构造网络模型

本发明构造了一种双分支融合网络，如图2所示。它主要由编码阶段和解码阶段两部分组成。对于给定任意大小的图像，本发明首先使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征，该方法能够结合Transformer和卷积神经网络各自的优势，有效地融合全局特征和局部特征。在解码阶段，针对上采样后容易丢失高级语义信息和空间细节信息导致的目标定位不准和分割边界粗糙问题，充分利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样，有效融合高级语义信息和空间位置信息，最终实现云和云影的精准定位和精细分割。Transformer分支模块如图5所示，Transformer分支的表达式如下：

T₁＝Conv_embed(d_i)

T₂＝MHA{Flatten[Conv_proj(T₁)+d_i]}

和/>

分别表示表示Transformer分支的第i层和第i+1层的输出矩阵，/>

条状卷积分支模块如图4所示，条状卷积分支的表达式如下：

C₁＝δ{norm[Conv_1×3(e_i)]}

C₂＝δ{norm[Conv_3×1(C₁)]}

C₃＝Maxpooling(C₂)

和/>

分别表示条状卷积分支的第i层和第i+1层的输出，/>

如图3所示，本发明设计了一种双向引导模块用于特征融合。一方面，高级特征拥有丰富的类别信息，它可以指导低级特征进行分类。另一方面，低级特征保留的位置信息相对较多，这可以弥补高级特征在空间位置信息上的不足。具体来说，Transformer分支的第二层和第四层将由卷积分支的第一层和第三层提取到的特征来指导，以获取更加准确的空间位置信息。为了实现对Transformer分支的引导，卷积分支的特征图将被送入多级池化模块进一步挖掘多尺度的空间信息，并将它们与Transformer块的输入特征融合。在与上一层Transformer层提取到的特征图融合后送入下一个Transformer层也就是需要被卷积分支引导的Transformer层；而Transformer的第二和第四层会给卷积分支的第三和第五层提供高级语义信息的引导，从而提升卷积分支在不断下采样过程中挖掘空间信息的能力。

本发明所提出的方法在编码部分使用了Transformer和条状卷积双支路架构去分别提取高级语义特征和空间位置信息，在解码阶段，本发明使用两个分支特征交错上采样的方式充分融合两个分支提取到的特征，如图6所示，这使得分割边界更加清晰详细。它的具体操作如下：

D_i＝Upsample{δ[DWConv(M_i)]},i＝1,2,3,4

上式中，

和/>

3、利用数据集进行网络训练过程如下：

将遥感数据集输入到网络中进行训练，在训练次数达到预设阈值或测试的准确度达到目标数值后表明本发明所搭建的网络模型已经符合要求。

3.1将做好数据集进行挑选，将全图为背景的进行剔除，然后将训练集和验证集按照8：2进行分拣，检测结果图像中的每个像素代表了输入图像的对应像素在本次训练过程中的检测结果，若该像素被网络判断为云，则检测结果中的对应位置像素为[128,0,0]，若该像素被判断为云影，则对应位置像素为[0,128,0],否则为[0,0,0]；

3.2设置一次训练所选取的样本数为3、最大迭代次数为300、学习率为0.001，初始的学习率需要不断调节，争取得到一个最优值，过大则导致模型不收敛，过小则导致模型收敛特别慢或者无法学习，训练过程中学习率采用按每次迭代不断下降直至为0的衰减策略。

3.3本申请实施在进行网络训练时，在输入原始遥感图像时，正向传播计算得到当前网络的输出图片，利用交叉熵损失函数，计算输出图片与人工标注标签之间的误差，利用链式法则将这个误差反向传播到网络中，在反向传播的过程中，使用Adam优化器进对网络的参数进行更新，完成一轮学习。Adam算法在2015年ICLR发表的Adam:A method forStochastic Optimization中提出，是一种计算每个参数的自适应学习率的方法，通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，其很容易实现，并且有很高的计算效率，它只需要一阶的梯度，并且只需要很小的内存。此处Adam的超参数β1和β2分别设置为默认值0.9和0.999。

3.4为了评价该方法在云和云影分割任务中的性能，本发明选择了precision(P)，recall(R)，F1 score，overall accuracy(OA)，pixel accuracy(PA),mean pixelaccuracy(MPA),mean intersection over union(MIoU)各评价指标的计算公式如下:

上式中true positive(TP)表示预测正确的云(云影)像素的数量，falsepositive(FP)表示预测错误的云(云影)像素的数量，true negative(TN)表示正确分类的非云(非云影)像素，false negative(FN)表示错误分类的云(云影)像素，k表示类别数(不包括背景)，p_i,j表示true positive的数量，p_i,j表示属于分类i但被预测为分类j的数量。

为了证明算法可行性，该方法与FCN，PAN，PSPNet，DeepLabV3+等这些目前优秀的模型进行了对比，该方法拥有更好的性能。表1展示了不同方法的对比结果。对于云检测，本发明在OA，P，和F1 score上都高于其他方法，分别达到了98.76％，97.95％,97.08％。对于云阴影检测，本发明提出的方法在OA，R和F1 score上也是最好的，分别达到了98.73％，94.39％和94.39％。虽然在云检测上的R和云影检测上的P不是最高的，但是与表现最好的方法差距很小；表1所示实验结果可以看出，本发明在水域分割任务能够得到较好的效果，能够得到更准确的效果。

表1各模型对比结果

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，本发明基于现有的深度学习平台，提出了双分支融合网络方法来提高云和云影分割的精度，解决云和云影分割任务中的难题，能够很好的利用高级语义信息和空间细节信息，在实现云和云影精准定位的同时实现其边界的精细分割，并且提高了算法的泛化性能。

Claims

1.一种基于双分支融合网络的遥感图像云和云影分割方法，其特征在于，包括如下步骤：

S1、获取数据集，所述数据集包括训练集和验证集；

S3、利用双向引导模块引导Transformer分支和卷积分支进行特征提取，双向引导模块用于特征融合，Transformer分支的第二层和第四层将由卷积分支的第一层和第三层提取到的特征来指导，以获取准确的空间位置信息；为了实现对Transformer分支的引导，卷积分支的特征图将被送入多级池化模块进一步挖掘多尺度的空间信息，并将它们与Transformer块的输入特征融合，在与上一层Transformer层提取到的特征图融合后送入下一个Transformer层也就是需要被卷积分支引导的Transformer层；而Transformer的第二和第四层会给卷积分支的第三和第五层提供高级语义信息的引导；

S4、在解码阶段，通过解码模块修复像素定位，充分利用两分支提取到的不同层级的特征进行融合上采样；解码阶段的具体操作如下：

D_i＝Upsample{δ[DWConv(M_i)]},i＝1,2,3,4

上式中，

和/>

分别表示Transformer分支和卷积分支第i层的输出，D_i表示解码器第i层的输出，Upsample(·)表示双线性插值上采样，δ(·)表示记过函数GELU，DWConv(·)表示深度可分离卷积，Concat(·)表示拼接操作；

2.根据权利要求1所述的一种基于双分支融合网络的遥感图像云和云影分割方法，其特征在于，所述步骤S1具体包括如下步骤：

S1.2、对遥感图像进行裁剪；

3.根据权利要求1所述的一种基于双分支融合网络的遥感图像云和云影分割方法，其特征在于，所述步骤S2的网络模型为双分支融合网络模型，由编码阶段和解码阶段两部分组成；在编码阶段，使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征，融合全局特征和局部特征；在解码阶段，利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样，融合高级语义信息和空间位置信息，实现云和云影的精准定位和精细分割。

4.根据权利要求3所述的一种基于双分支融合网络的遥感图像云和云影分割方法，其特征在于，Transformer分支的表达式如下：