CN114943963B - 一种基于双分支融合网络的遥感图像云和云影分割方法 - Google Patents

一种基于双分支融合网络的遥感图像云和云影分割方法 Download PDF

Info

Publication number
CN114943963B
CN114943963B CN202210476213.6A CN202210476213A CN114943963B CN 114943963 B CN114943963 B CN 114943963B CN 202210476213 A CN202210476213 A CN 202210476213A CN 114943963 B CN114943963 B CN 114943963B
Authority
CN
China
Prior art keywords
cloud
branch
layer
convolution
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210476213.6A
Other languages
English (en)
Other versions
CN114943963A (zh
Inventor
翁理国
鲁晨
夏旻
胡凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210476213.6A priority Critical patent/CN114943963B/zh
Publication of CN114943963A publication Critical patent/CN114943963A/zh
Application granted granted Critical
Publication of CN114943963B publication Critical patent/CN114943963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双分支融合网络的遥感图像云和云影分割方法,该方法以Convolutional vision Transformer中的Transformer模块和条状卷积作为骨干网络,将两者有效结合,使得两个分支能够相互补充,从而更加高效地提取图像中的特征信息。在特征融合方面,使用了双向引导模块使得Transformer分支和条状卷积分支能够相互引导对方进行特征挖掘、提取多尺度上下文信息,提高了不同尺度的云和云影的分割能力。在解码阶段,充分利用两分支提取到的不同层级的特征进行融合上采样,有效融合高级语义信息和空间位置信息,使得云和云影的定位更加准确,分割边界更加详细;同时本方法还是通用的。

Description

一种基于双分支融合网络的遥感图像云和云影分割方法
技术领域
本发明涉及图像分割技术领域,具体为一种基于双分支融合网络的遥感图像云和云影分割方法。
背景技术
云和云影检测是遥感图像处理中至关重要的问题。一方面,云是重要的气象元素,通过观察云的变化能够分析出气候变化,对灾害天气的预测和研究有着重要的意义。另一方面,许多基于遥感技术的应用,如土地覆盖分类、变化检测、水域分割等,受到云层遮挡的影响,经常会出现漏检、误检等问题。因此,对云和云影进行准确识别十分必要。
传统的云检测方法使用单组或多组阈值进行云检测,虽然一定程度上提升了检测精度,但漏判和误判时有发生。而且光谱和阈值的选择严重依赖于先验知识,且易受很多因素的干扰。近年来,深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs)在计算机视觉领域获得巨大成功。然而,经典的DCNNs是为图像分类任务设计的,云和云影分割是一个像素级的分类任务,经典方法并不适用。然而,经典的DCNNs是为图像分类任务设计的,云和云影分割是一个像素级的分类任务,经典方法并不适用。为了实现端到端的像素级分类即语义分割,Long等人在2015年提出了全卷积神经网络(Fully ConvolutionalNetworks,FCNs),该方法用卷积层替代全连接层,对语义分割任务十分有效。Ronneberger等人提出了U-Net来获取上下文的信息和位置信息。Chen等人提出的DeepLab采用空洞卷积扩大感受野,使用完全连接的条件随机场(Conditional Random Field,CRF)提高模型捕获细节的能力。Zhao等人提出的Pyramid Scene Parsing Network(PSPNet)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。和传统的阈值法相比,这些深度学习方法可以处理任意尺寸的图像,学习到的特征不需要经过手动调节,大大增加了模型的检测能力。但是DCNNs很难捕捉到长距离的依赖关系,虽然可以通过扩大感受野来缓解这一问题,但终究无法捕获全局特征。
为了获得全局特征,最近的一些研究将原本在自然语言处理任务上表现优异的Transformer扩展到计算机视觉任务上来,并在各种视觉任务中展现出了较好的性能。Dosovitskiy等人提出了专为图像分类设计的Vision Transformer(ViT)将纯Transformer模块直接应用于图像块序列,来实现图像分类,该方法在多个图像分类测试中获得了比卷积更加优秀的结果。但是该方法是针对图像分类任务的,并不适合语义分割任务。为了将Transformer引入都目标检测、语义分割等密集预测任务上来,Wang等人提出了PyramidVision Transforme(PVT),该方法和ViT一样使用纯Transformer作为backbone,并将金字塔结构引入到Transformer,在缩小特征图的同时降低了计算复杂度和内存占用,对密集预测十分有效。Wu等人提出的Convolutional vision Transformer(CvT)将卷积引入ViT来提高Transformer的性能,以实现两种模型的最佳效果。但这种简单的融合方式在较为复杂的任务特别是在云和云影分割上表现仍然不理想。首先,分割结果不够精确,云和云影的边界分割粗糙。虽然条件随机场(CRF)能够修复边界信息,但这种后处理的方法不能实现端到端的训练。其次,在地表物体和噪声等因素的干扰下,容易出现误检和漏检的情况,导致分割结果不理想。因此我们对此做出改进,提出一种基于双分支融合网络的遥感图像云和云影分割方法。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种基于Transformer和卷积神经网络双分支融合网络的遥感图像云和云影分割方法。利用Transformer和卷积神经网络两个分支分别提取多尺度的语义信息,并优化特征融合方法,搭建了云和云影分割模型,用于解决现有云和云影分割技术所面临得挑战。本发明提供了如下的技术方案:
本发明一种基于双分支融合网络的遥感图像云和云影分割方法,包括如下步骤:
S1、获取数据集,所述数据集包括训练集和验证集;
S2、建立Transformer分支和卷积分支网络模型,并将图像数据输入模型中,通过多次下采样获得遥感图像的不同尺度的特征信息,为特征融合做准备;
S3、利用双向引导模块引导Transformer分支和卷积分支进行特征提取;
S4、在解码阶段,通过解码模块修复像素定位,充分利用两分支提取到的不同层级的特征进行融合上采样;
S5、不断迭代训练模型,进行精准度测试,直至模型达到预想效果。
作为本发明的一种优选技术方案,所述步骤S1具体包括如下步骤:
S1.1、从Landsat-8号卫星和Sentinel-2号卫星上获取高清遥感图像;
S1.2、对遥感图像进行裁剪;
S1.3、对裁剪完成的图像进行标注,使用Labelme对裁剪完成的图片进行人工掩膜标注,标注类型为三类:云、云影和背景;
S1.4、划分数据集,将上述得到的图片按4∶1进行划分,即将80%作为训练集,20%作为验证集。
作为本发明的一种优选技术方案,所述步骤S2的网络模型为双分支融合网络模型,由编码阶段和解码阶段两部分组成;在编码阶段,使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征,融合全局特征和局部特征;在解码阶段,利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样,融合高级语义信息和空间位置信息,实现云和云影的精准定位和精细分割。
作为本发明的一种优选技术方案,Transformer分支的表达式如下:
Figure GDA0004218632930000041
T1=Convembed(di)
T2=MHA{Flatten[Convproj(T1)+di]}
Figure GDA0004218632930000042
其中,di表示Transformer分支第i层的输入矩阵(i=0,1,2,3,4),x0表示输入到模型的矩阵,
Figure GDA0004218632930000043
和/>
Figure GDA0004218632930000044
分别表示表示Transformer分支的第i层和第i+1层的输出矩阵,/>
Figure GDA0004218632930000045
表示卷积分支的第i层输出经过多级池化后的特征图,Convembed(·)表示卷积嵌入层,Convproj(·)表示卷积投影层,Flatten(·)表示将二维数据展开成一维数据,MHA(·)表示多头注意力层,Norm(·)表示层归一化,MLP(·)表示多层感知机,Reshape(·)表示将一维数据变为二维数据。
作为本发明的一种优选技术方案,状卷积分支的表达式如下:
Figure GDA0004218632930000046
C1=δ{norm[Conv1×3(ei)]}
C2=δ{norm[Conv3×1(C1)]}
C3=Maxpooling(C2)
Figure GDA0004218632930000047
上式中,ei表示条状卷积分支第i层的输入(i=0,1,2,3,4),x0表示输入的原始图像,
Figure GDA0004218632930000048
和/>
Figure GDA0004218632930000049
分别表示表示条状卷积分支的第i层和第i+1层的输出,/>
Figure GDA00042186329300000410
表示Transformer分支的第i层经过双线性插值上采样成为同相同大小的特征图,δ(·)表示激活函数RELU,norm(·)表示BatchNorm,Conv1×3(·)和Conv3×1(·)分别表示卷积核大小为和的条状卷积,Maxpooling(·)表示最大池化层。
作为本发明的一种优选技术方案,解码阶段的具体操作如下:
Di=Upsample{δ[DWConv(Mi)]},i=1,2,3,4
Figure GDA0004218632930000051
上式中,
Figure GDA0004218632930000052
和/>
Figure GDA0004218632930000053
分别表示Transformer分支和卷积分支第i层的输出,Di表示解码器第i层的输出,Upsample(·)表示双线性插值上采样,δ(·)表示记过函数GELU,DWConv(·)表示深度可分离卷积,Concat(·)表示拼接操作。
作为本发明的一种优选技术方案,所述步骤S5的具体训练过程如下:
S5.1、将做好数据集进行挑选,将全图为背景的进行剔除,然后将训练集和验证集按照8∶2进行分拣,检测结果图像中的每个像素代表了输入图像的对应像素在本次训练过程中的检测结果,若该像素被网络判断为云,则检测结果中的对应位置像素为[128,0,0],若该像素被判断为云影,则对应位置像素为[0,128,0],否则为[0,0,0];
S5.2、设置一次训练所选取的样本数为3、最大迭代次数为300、学习率为0.001;
S5.3、进行网络模型训练,在输入原始遥感图像时,正向传播计算得到当前网络的输出图片,利用交叉熵损失函数,计算输出图片与人工标注标签之间的误差,利用链式法则将这个误差反向传播到网络中,在反向传播的过程中,使用Adam优化器进对网络的参数进行更新,完成一轮学习;当训练次数达到预设阈值或测试的准确度达到目标数值后,表明所搭建的网络模型已经符合要求。
本发明的有益效果是:
该种基于双分支融合网络的遥感图像云和云影分割方法,通过Transformer分支和卷积分支分别对遥感图像进行下采样提取多尺度特征,然后基于两分支不同的特性,使用双向引导模块使得两分支能够相互指导对方进行下采样,提高了不同尺度的语义信息和空间信息提取能力。在解码阶段,充分利用双分支提取到的特征进行上采样,逐步引导特征图的恢复,使得云和云影的定位更加准确、分割边界更加清晰,最终生成分割结果。完成了端到端的训练并且无需任何手动调参,使云和云影检测的过程非常简便。该方法在光谱范围有限的情况下十分有用。此外,该方法实现了对云和云影的精准定位,能够产生清晰的分割边界,还提高了检测的精度,并且其检测结果相对于现有的检测模型来说,其性能能到了极大的提升。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例的云和云影分割流程图。
图2是本发明实施例的模型总体架构图。
图3是本发明实施例的双向引导模块图。
图4是本发明实施例的卷积模块图。
图5是本发明实施例的Transformer模块图。
图6是本发明实施例的解码模块图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:本发明一种基于双分支融合网络的遥感图像云和云影分割方法,最主要的工作为搭建并训练模型,该方法输入遥感图像,通过模型推理,最后输出遥感图像云和云影的预测结果。利用深度学习平台实现所提出方法的实现,网络的训练包括数据集的制作及训练调参过程。整体流程图如图1所示,具体包括如下步骤:
1、构建数据集
步骤1、从Landsat-8号卫星和Sentinel-2号卫星上获取高清遥感图像。为了充分验证算法的性能,图像收集的范围很广,包含了多种背景下的云影图像,如城市、乡镇、山地、水域、荒漠等。
步骤2、对遥感图像进行裁剪。由于高清遥感图像通常较大,受GPU显存限制,这些图像将被裁剪为的小图进行训练和预测。
步骤3、对裁剪完成的图像进行标注。使用Labelme对裁剪完成的图片进行人工掩膜标注,标注类型为三类:云、云影和背景。云的像素值为[128,0,0],云影的像素值为[0,128,0],背景的像素值为[0,0,0],标签的质量将会影响模型的预测结果,所以此过程需要确保准确率。出去质量较差的图片,最后得到了12000张图片。
步骤4、划分数据集。将上述得到的图片按4:1进行划分,其中80%作为训练集,20%作为验证集。因此,训练集共有9600张图片,验证集有2400张图片。
2、构造网络模型
本发明构造了一种双分支融合网络,如图2所示。它主要由编码阶段和解码阶段两部分组成。对于给定任意大小的图像,本发明首先使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征,该方法能够结合Transformer和卷积神经网络各自的优势,有效地融合全局特征和局部特征。在解码阶段,针对上采样后容易丢失高级语义信息和空间细节信息导致的目标定位不准和分割边界粗糙问题,充分利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样,有效融合高级语义信息和空间位置信息,最终实现云和云影的精准定位和精细分割。Transformer分支模块如图5所示,Transformer分支的表达式如下:
Figure GDA0004218632930000071
T1=Convembed(di)
T2=MHA{Flatten[Convproj(T1)+di]}
Figure GDA0004218632930000072
其中,di表示Transformer分支第i层的输入矩阵(i=0,1,2,3,4),x0表示输入到模型的矩阵,
Figure GDA0004218632930000081
和/>
Figure GDA0004218632930000082
分别表示表示Transformer分支的第i层和第i+1层的输出矩阵,/>
Figure GDA0004218632930000083
表示卷积分支的第i层输出经过多级池化后的特征图,Convembed(·)表示卷积嵌入层,Convproj(·)表示卷积投影层,Flatten(·)表示将二维数据展开成一维数据,MHA(·)表示多头注意力层,Norm(·)表示层归一化,MLP(·)表示多层感知机,Reshape(·)表示将一维数据变为二维数据。
条状卷积分支模块如图4所示,条状卷积分支的表达式如下:
Figure GDA0004218632930000084
C1=δ{norm[Conv1×3(ei)]}
C2=δ{norm[Conv3×1(C1)]}
C3=Maxpooling(C2)
Figure GDA0004218632930000085
上式中,ei表示条状卷积分支第i层的输入(i=0,1,2,3,4),x0表示输入的原始图像,
Figure GDA0004218632930000086
和/>
Figure GDA0004218632930000087
分别表示条状卷积分支的第i层和第i+1层的输出,/>
Figure GDA0004218632930000088
表示Transformer分支的第i层经过双线性插值上采样成为同相同大小的特征图,δ(·)表示激活函数RELU,norm(·)表示BatchNorm,Conv1×3(·)和Conv3×1(·)分别表示卷积核大小为和的条状卷积,Maxpooling(·)表示最大池化层。
如图3所示,本发明设计了一种双向引导模块用于特征融合。一方面,高级特征拥有丰富的类别信息,它可以指导低级特征进行分类。另一方面,低级特征保留的位置信息相对较多,这可以弥补高级特征在空间位置信息上的不足。具体来说,Transformer分支的第二层和第四层将由卷积分支的第一层和第三层提取到的特征来指导,以获取更加准确的空间位置信息。为了实现对Transformer分支的引导,卷积分支的特征图将被送入多级池化模块进一步挖掘多尺度的空间信息,并将它们与Transformer块的输入特征融合。在与上一层Transformer层提取到的特征图融合后送入下一个Transformer层也就是需要被卷积分支引导的Transformer层;而Transformer的第二和第四层会给卷积分支的第三和第五层提供高级语义信息的引导,从而提升卷积分支在不断下采样过程中挖掘空间信息的能力。
本发明所提出的方法在编码部分使用了Transformer和条状卷积双支路架构去分别提取高级语义特征和空间位置信息,在解码阶段,本发明使用两个分支特征交错上采样的方式充分融合两个分支提取到的特征,如图6所示,这使得分割边界更加清晰详细。它的具体操作如下:
Di=Upsample{δ[DWConv(Mi)]},i=1,2,3,4
Figure GDA0004218632930000091
上式中,
Figure GDA0004218632930000092
和/>
Figure GDA0004218632930000093
分别表示Transformer分支和卷积分支第i层的输出,Di表示解码器第i层的输出,Upsample(·)表示双线性插值上采样,δ(·)表示记过函数GELU,DWConv(·)表示深度可分离卷积,Concat(·)表示拼接操作。
3、利用数据集进行网络训练过程如下:
将遥感数据集输入到网络中进行训练,在训练次数达到预设阈值或测试的准确度达到目标数值后表明本发明所搭建的网络模型已经符合要求。
3.1将做好数据集进行挑选,将全图为背景的进行剔除,然后将训练集和验证集按照8:2进行分拣,检测结果图像中的每个像素代表了输入图像的对应像素在本次训练过程中的检测结果,若该像素被网络判断为云,则检测结果中的对应位置像素为[128,0,0],若该像素被判断为云影,则对应位置像素为[0,128,0],否则为[0,0,0];
3.2设置一次训练所选取的样本数为3、最大迭代次数为300、学习率为0.001,初始的学习率需要不断调节,争取得到一个最优值,过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,训练过程中学习率采用按每次迭代不断下降直至为0的衰减策略。
3.3本申请实施在进行网络训练时,在输入原始遥感图像时,正向传播计算得到当前网络的输出图片,利用交叉熵损失函数,计算输出图片与人工标注标签之间的误差,利用链式法则将这个误差反向传播到网络中,在反向传播的过程中,使用Adam优化器进对网络的参数进行更新,完成一轮学习。Adam算法在2015年ICLR发表的Adam:A method forStochastic Optimization中提出,是一种计算每个参数的自适应学习率的方法,通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率,其很容易实现,并且有很高的计算效率,它只需要一阶的梯度,并且只需要很小的内存。此处Adam的超参数β1和β2分别设置为默认值0.9和0.999。
3.4为了评价该方法在云和云影分割任务中的性能,本发明选择了precision(P),recall(R),F1 score,overall accuracy(OA),pixel accuracy(PA),mean pixelaccuracy(MPA),mean intersection over union(MIoU)各评价指标的计算公式如下:
Figure GDA0004218632930000101
Figure GDA0004218632930000102
Figure GDA0004218632930000103
Figure GDA0004218632930000104
Figure GDA0004218632930000105
Figure GDA0004218632930000106
Figure GDA0004218632930000107
上式中true positive(TP)表示预测正确的云(云影)像素的数量,falsepositive(FP)表示预测错误的云(云影)像素的数量,true negative(TN)表示正确分类的非云(非云影)像素,false negative(FN)表示错误分类的云(云影)像素,k表示类别数(不包括背景),pi,j表示true positive的数量,pi,j表示属于分类i但被预测为分类j的数量。
为了证明算法可行性,该方法与FCN,PAN,PSPNet,DeepLabV3+等这些目前优秀的模型进行了对比,该方法拥有更好的性能。表1展示了不同方法的对比结果。对于云检测,本发明在OA,P,和F1 score上都高于其他方法,分别达到了98.76%,97.95%,97.08%。对于云阴影检测,本发明提出的方法在OA,R和F1 score上也是最好的,分别达到了98.73%,94.39%和94.39%。虽然在云检测上的R和云影检测上的P不是最高的,但是与表现最好的方法差距很小;表1所示实验结果可以看出,本发明在水域分割任务能够得到较好的效果,能够得到更准确的效果。
表1各模型对比结果
Figure GDA0004218632930000111
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,本发明基于现有的深度学习平台,提出了双分支融合网络方法来提高云和云影分割的精度,解决云和云影分割任务中的难题,能够很好的利用高级语义信息和空间细节信息,在实现云和云影精准定位的同时实现其边界的精细分割,并且提高了算法的泛化性能。

Claims (6)

1.一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,包括如下步骤:
S1、获取数据集,所述数据集包括训练集和验证集;
S2、建立Transformer分支和卷积分支网络模型,并将图像数据输入模型中,通过多次下采样获得遥感图像的不同尺度的特征信息,为特征融合做准备;
S3、利用双向引导模块引导Transformer分支和卷积分支进行特征提取,双向引导模块用于特征融合,Transformer分支的第二层和第四层将由卷积分支的第一层和第三层提取到的特征来指导,以获取准确的空间位置信息;为了实现对Transformer分支的引导,卷积分支的特征图将被送入多级池化模块进一步挖掘多尺度的空间信息,并将它们与Transformer块的输入特征融合,在与上一层Transformer层提取到的特征图融合后送入下一个Transformer层也就是需要被卷积分支引导的Transformer层;而Transformer的第二和第四层会给卷积分支的第三和第五层提供高级语义信息的引导;
S4、在解码阶段,通过解码模块修复像素定位,充分利用两分支提取到的不同层级的特征进行融合上采样;解码阶段的具体操作如下:
Di=Upsample{δ[DWConv(Mi)]},i=1,2,3,4
Figure FDA0004230872210000011
上式中,
Figure FDA0004230872210000012
和/>
Figure FDA0004230872210000013
分别表示Transformer分支和卷积分支第i层的输出,Di表示解码器第i层的输出,Upsample(·)表示双线性插值上采样,δ(·)表示记过函数GELU,DWConv(·)表示深度可分离卷积,Concat(·)表示拼接操作;
S5、不断迭代训练模型,进行精准度测试,直至模型达到预想效果。
2.根据权利要求1所述的一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,所述步骤S1具体包括如下步骤:
S1.1、从Landsat-8号卫星和Sentinel-2号卫星上获取高清遥感图像;
S1.2、对遥感图像进行裁剪;
S1.3、对裁剪完成的图像进行标注,使用Labelme对裁剪完成的图片进行人工掩膜标注,标注类型为三类:云、云影和背景;
S1.4、划分数据集,将上述得到的图片按4∶1进行划分,即将80%作为训练集,20%作为验证集。
3.根据权利要求1所述的一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,所述步骤S2的网络模型为双分支融合网络模型,由编码阶段和解码阶段两部分组成;在编码阶段,使用Transformer和卷积网络相互引导的双支路结构去提取不同层级的特征,融合全局特征和局部特征;在解码阶段,利用Transformer分支和条状卷积分支提取到的不同层级的语义信息和空间信息进行上采样,融合高级语义信息和空间位置信息,实现云和云影的精准定位和精细分割。
4.根据权利要求3所述的一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,Transformer分支的表达式如下:
Figure FDA0004230872210000031
T1=Convembed(di)
T2=MHA{Flatten[Convproj(T1)+di]}
Figure FDA0004230872210000032
其中,di表示Transformer分支第i层的输入矩阵(i=0,1,2,3,4),x0表示输入到模型的矩阵,
Figure FDA0004230872210000033
和/>
Figure FDA0004230872210000034
分别表示表示Transformer分支的第i层和第i+1层的输出矩阵,/>
Figure FDA0004230872210000035
表示卷积分支的第i层输出经过多级池化后的特征图,Convembed(·)表示卷积嵌入层,Convproj(·)表示卷积投影层,Flatten(·)表示将二维数据展开成一维数据,MHA(·)表示多头注意力层,Norm(·)表示层归一化,MLP(·)表示多层感知机,Reshape(·)表示将一维数据变为二维数据。
5.根据权利要求3所述的一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,条状卷积分支的表达式如下:
Figure FDA0004230872210000036
C1=δ{norm[Conv1×3(ei)]}
C2=δ{norm[Conv3×1(C1)]}
C3=Maxpooling(C2)
Figure FDA0004230872210000037
上式中,ei表示条状卷积分支第i层的输入(i=0,1,2,3,4),x0表示输入的原始图像,
Figure FDA0004230872210000038
和/>
Figure FDA0004230872210000039
分别表示表示条状卷积分支的第i层和第i+1层的输出,/>
Figure FDA0004230872210000041
表示Transformer分支的第i层经过双线性插值上采样成为同相同大小的特征图,δ(·)表示激活函数RELU,norm(·)表示BatchNorm,Conv1×3(·)和Conv3×1(·)分别表示卷积核大小为和的条状卷积,Maxpooling(·)表示最大池化层。
6.根据权利要求1所述的一种基于双分支融合网络的遥感图像云和云影分割方法,其特征在于,所述步骤S5的具体训练过程如下:
S5.1、将做好数据集进行挑选,将全图为背景的进行剔除,然后将训练集和验证集按照8∶2进行分拣,检测结果图像中的每个像素代表了输入图像的对应像素在本次训练过程中的检测结果,若该像素被网络判断为云,则检测结果中的对应位置像素为[128,0,0],若该像素被判断为云影,则对应位置像素为[0,128,0],否则为[0,0,0];
S5.2、设置一次训练所选取的样本数为3、最大迭代次数为300、学习率为0.001;
S5.3、进行网络模型训练,在输入原始遥感图像时,正向传播计算得到当前网络的输出图片,利用交叉熵损失函数,计算输出图片与人工标注标签之间的误差,利用链式法则将这个误差反向传播到网络中,在反向传播的过程中,使用Adam优化器进对网络的参数进行更新,完成一轮学习;当训练次数达到预设阈值或测试的准确度达到目标数值后,表明所搭建的网络模型已经符合要求。
CN202210476213.6A 2022-04-29 2022-04-29 一种基于双分支融合网络的遥感图像云和云影分割方法 Active CN114943963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210476213.6A CN114943963B (zh) 2022-04-29 2022-04-29 一种基于双分支融合网络的遥感图像云和云影分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210476213.6A CN114943963B (zh) 2022-04-29 2022-04-29 一种基于双分支融合网络的遥感图像云和云影分割方法

Publications (2)

Publication Number Publication Date
CN114943963A CN114943963A (zh) 2022-08-26
CN114943963B true CN114943963B (zh) 2023-07-04

Family

ID=82907033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210476213.6A Active CN114943963B (zh) 2022-04-29 2022-04-29 一种基于双分支融合网络的遥感图像云和云影分割方法

Country Status (1)

Country Link
CN (1) CN114943963B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375589B (zh) * 2022-10-25 2023-02-10 城云科技(中国)有限公司 一种去除图像阴影模型及其构建方法、装置及应用
CN115393596B (zh) * 2022-10-28 2023-02-21 武汉纺织大学 一种基于人工智能的服装图像分割方法
CN115810020B (zh) * 2022-12-02 2023-06-02 中国科学院空间应用工程与技术中心 一种基于语义引导的由粗到细的遥感图像分割方法及系统
CN115861824B (zh) * 2023-02-23 2023-06-06 汕头大学 基于改进Transformer的遥感图像识别方法
CN116309650B (zh) * 2023-05-22 2023-08-01 湖南大学 基于双分支嵌入注意力机制的医学图像分割方法与系统
CN116740584B (zh) * 2023-06-25 2024-05-10 安徽大学 一种弱监督云检测方法
CN116703950B (zh) * 2023-08-07 2023-10-20 中南大学 一种基于多层次特征融合的伪装目标图像分割方法和系统
CN117036984B (zh) * 2023-10-09 2024-01-09 武汉大学 一种融合注意力机制的级联u型网络云检测方法及系统
CN117456191B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN117689960B (zh) * 2024-01-31 2024-04-26 中国地质大学(武汉) 一种岩性场景分类模型构建方法及分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886986B (zh) * 2019-01-23 2020-09-08 北京航空航天大学 一种基于多分支卷积神经网络的皮肤镜图像分割方法
CN110781756A (zh) * 2019-09-29 2020-02-11 北京化工大学 基于遥感图像的城市道路提取方法及装置
CN111738124B (zh) * 2020-06-15 2023-08-22 西安电子科技大学 基于Gabor变换和注意力的遥感图像云检测方法
CN113421269A (zh) * 2021-06-09 2021-09-21 南京瑞易智能科技有限公司 一种基于双分支深度卷积神经网络的实时语义分割方法
CN114022408A (zh) * 2021-09-22 2022-02-08 中国空间技术研究院 基于多尺度卷积神经网络的遥感图像云检测方法
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113688813B (zh) * 2021-10-27 2022-01-04 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN114119977B (zh) * 2021-12-01 2022-12-30 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法

Also Published As

Publication number Publication date
CN114943963A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN114943963B (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN109241972B (zh) 基于深度学习的图像语义分割方法
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN111178316A (zh) 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法
CN112258526A (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN113392960A (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN113312993B (zh) 一种基于PSPNet的遥感数据土地覆盖分类方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN115953582A (zh) 一种图像语义分割方法及系统
CN116797787A (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN114926826A (zh) 场景文本检测系统
CN115984714B (zh) 一种基于双分支网络模型的云检测方法
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN117079237A (zh) 一种自监督的单目车距检测方法
CN115187777A (zh) 一种数据集制作困难下的图像语义分割方法
CN115393735A (zh) 基于改进U-Net的遥感影像建筑物提取方法
CN112818818B (zh) 一种基于affpn的新型超高清遥感图像变化检测方法
CN115331112A (zh) 基于多粒度词元的红外与可见光图像融合方法及系统
CN115205532A (zh) 基于特征提取和rfb上下文信息优化的图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant