CN117351363A - 基于Transformer的遥感影像建筑物提取方法 - Google Patents

基于Transformer的遥感影像建筑物提取方法 Download PDF

Info

Publication number
CN117351363A
CN117351363A CN202311479022.6A CN202311479022A CN117351363A CN 117351363 A CN117351363 A CN 117351363A CN 202311479022 A CN202311479022 A CN 202311479022A CN 117351363 A CN117351363 A CN 117351363A
Authority
CN
China
Prior art keywords
feature
stage
attention
representing
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311479022.6A
Other languages
English (en)
Inventor
朱盼盼
宋志超
刘家乐
颜家正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202311479022.6A priority Critical patent/CN117351363A/zh
Publication of CN117351363A publication Critical patent/CN117351363A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及基于Transformer的遥感影像建筑物提取方法,属于遥感图像信息提取技术领域。该方法包括:S1:对训练数据集进行预处理及数据增强;S2:将训练集数据输入Transformer编码器中,得到各个阶段不同尺度的特征图;S3:将编码器各阶段输出的特征输入到解码器中,逐步集成来自编码器和解码器的多级特征图;S4:采用级联的多尺度融合方法对解码器输出的所有多级特征图进行融合后进行处理得到最终预测图;S5:对解码器输出的多级特征图进行深度监督训练;S6:将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练。本发明充分捕获图像中特征之间的局部和远程依赖关系,提高对大型建筑物提取能力。

Description

基于Transformer的遥感影像建筑物提取方法
技术领域
本发明遥感图像信息提取技术领域,涉及基于Transformer的遥感影像建筑物提取方法。
背景技术
作为人类活动的主要场所和经济发展的重要载体,建筑是城市地理信息数据库最重要的构成要素之一。建筑的自动化和智能化提取对于城市扩张分析、灾害预警评估、人口估算和建筑物能耗计算等实际应用具有十分重要的意义。建筑物提取技术通常依靠高分辨率光学遥感影像所包含的丰富的空间细节以及光谱特性来提取建筑物。然而,由于城市复杂的场景中建筑物的尺度和形态的多样性,周围复杂的地物关系,加上阴影、树木等地物的遮挡给高分辨率遥感影像建筑物提取带来了巨大的挑战。建筑提取本质上是一个基于像素的二分类任务。所有的非建筑物区域视为背景,所有的建筑物区域视为前景。
在面向多尺度对象分割问题时,有许多基于深度学习方法来进行建筑物提取。如PSPNet利用空间金字塔池化模块来继承多尺度的上下文,但是大尺度上下文的提取以牺牲空间分辨率为代价。Deeplab家族将空洞空间金字塔池模块集成到深度卷积神经网络中,在不丢失分辨率的前提下捕获多尺度上下文信息。
与基于CNN的方法相比,Transformer可以捕捉长期依赖关系为从整个图像中捕获综合上下文信息提供了机会。首先是Vision Transformer模型,它是一个将Transformer架构应用于计算机视觉的开创性工作。同时,为了使Transformer架构适应密集预测任务,许多学者尝试在Transformer的基础上构建多尺度特征图。如通过Patch Embedding层缩小特征图,采用递进收缩策略构建多层次金字塔视觉变压器的PVT Transformer。但是它的计算复杂度非常高。同时,为了减少计算量,Swin Transformer在窗口内计算局部自注意力,并通过移窗方案实现跨窗口的信息交换。虽然基于此可以降低计算复杂度,但是由于窗口之间的连接较少导致了有限的感受野。又受空间可分离卷积启发,提出了孪生的可分离自注意,包括一个局部分组的自我注意力和一个全局下采样的注意力。
然而,由于当前的城市区域建筑提取面临着建筑物外观多样、尺度变化大、背景和结构极为复杂的挑战。现有的高分辨率遥感影像的建筑提取方法面临着需要解决的问题,比如当小建筑所含像素少,可利用了信息少,当上下文信息使用不足时,小建筑很容易被漏提,大型建筑结构复杂,颜色纹理细节丰富,在提取时容易导致提取形态不完备,中间出现孔洞。另外,卷积运算在局部区域的表达方面具有很大的优势,但CNN受限的感受野既不足以识别大型建筑,也不能很好的捕捉实体与实体之间的空间关系线索,而但是,它们很大程度上忽略了注意力层内场景对象的多尺度特性。虽然现有的Transformer模型在图像分割领域取得了非常不错的效果,但它们忽略了注意力层内场景对象的多尺度特性,使得它们在面对地物尺度变化大的遥感影像时精度受限。无法满足城市复杂场景下建筑高精度提取的需求。
发明内容
有鉴于此,本发明的目的在于提供基于Transformer的遥感影像建筑物提取方法,解决现有建筑提取方法对城市复杂场景中小建筑漏提、大型复杂建筑提取完备性差和提取的建筑边界不够规则、精确的技术问题。
为达到上述目的,本发明提供如下技术方案:
基于Transformer的遥感影像建筑物提取方法,该方法包括以下步骤:
S1:将获取的遥感建筑物数据集图像划分为训练集、验证集和测试集,将训练集图像采用滑动窗口的方式进行裁剪,并对标注图像进行相应处理,然后对训练集图像进行数据增强;
S2:将所述S1中经过数据增强的训练集图像输入具有尺度感知的局部-全局上下文特征提取模型,所述模型对输入的遥感图像进行特征提取,得到第一阶段~第四阶段,四个阶段不同尺度的特征图;
S3:将所述S2中得到第一阶段~第四阶段,四个阶段不同尺度的特征图依次输入解码器中,所述解码器对各个阶段不同尺度的特征图逐步融合高层特征和低层特征,并对融合后的特征图再次进行细化;
S4:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图采用级联的多尺度融合方法进行融合,得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图,并将各个阶段特征图融合后的结果经过处理得到一个最终预测图,并将最终预测图作为最终的建筑物提取结果;
S5:将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图进行深度监督训练,得到第二阶段~第四阶段,三个阶段的预测图,并作为辅助分类器进行训练;
S6:将所述S4中解码器输出的最终预测图作为主分支,将所述S5中输出的第二阶段~第四阶段,三个阶段经过分类以及上采样后的特征图作为辅助分支,并使用AdamW优化器以及poly学习率调整策略,将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练,计算总损失,并通过反向传播来更新参数,取训练过程中总损失最小的模型参数作为最优模型参数。
进一步的,所述S1中,标注图像进行处理,具体为:将标签图中非建筑物区域的像素设置为0,建筑物区域的像素设置为1。
进一步的,所述S1中,数据增强具体包括:对图像进行随机大小缩放、随机水平翻转和垂直翻转、随机高斯噪声、限制对比度自适应直方图均衡及随机裁剪方法。
进一步的,所述随机大小缩放默认使用0.5-2.0的缩放比例,所述随机水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强,所述随机裁剪,默认裁剪大小为256×256。
进一步的,所述S2中,具有尺度感知的局部-全局上下文特征提取模型为一个拥有四个阶段的视觉Transformer编码器,所述四个阶段的视觉Transformer编码器的每一阶段包括一个嵌入层和若干个变压器组Transformer Block;
每个嵌入层由一个卷积核大小为4的卷积层和LayerNorm正则化层组成;
每个Transformer Block包括:一对自注意力模块和一对2层的混合前馈位置编码Mix-FFN模块,所述一对自注意力块分别为:金字塔局部自注意力PLSA模块和全局下采样自注意力GSA模块;
所述金字塔局部自注意力模块PLSA,将二维特征图均匀划分为子窗口,在窗口内计算自注意力,并将多头注意力分成若干个组,每个组捕捉一个尺度的上下文特征,对不同头注意力,查询向量Q不变,采用不同的下采样率ri对键向量K和数值向量V进行池化,产生多个粒度的Ki和Vi,整个PLSA过程表示为:
Qi=FWi Q (1)
Ki,Vi=SPP(F,ri)Wi K,SPP(F,ri)Wi V (2)
PLSA=Concat(head0,head1,...,headi,...,headp)WO (4)
其中,F为输入的特征矩阵,Wi Q为得到查询向量Q的权重矩阵,Wi K和Wi V分别表示得到键向量K和数值向量V的权重矩阵,WO表示对拼接后的多头注意进行线性变换的权重矩阵,SPP指的是金字塔下采样,ri是下采样率,dh表示Ki的特征维数,headi表示第i头注意力,p表示每层一共p头注意力;
所述全局下采样自注意力模块GSA,将二维特征图划分为子窗口,通过卷积的方式从每个子窗口中选出一个代表与其它子窗口进行通信;
Mix-FFN使用n×n的卷积来编码位置信息,则表示为:
Fout=MLP(GELU(Convn×n(MLP(Fin))))+Fin (5)
其中,Fin表示经过残差连接和层归一化后的自注意力层的输出,MLP为多层感知机,GELU指的是高斯误差线性单元激活函数;
在进入每个自注意力模块和每个Mix-FFN模块之前应用一个LayerNorm层,并在每个模块之后应用一个残差连接,则整个注意力块表示为:
其中,表示输入到Transformer块的图像序列,/>表示经过自注意力层后的输出结果,/>表示对自注意力输出的结果进行混合前馈编码后的输出,Fl表示经过金字塔局部自注意力Transformer块后的输出结果,/>表示经过全局下采样自注意力层后的输出结果,Fl+1表示经过全局下采样自注意力Transformer块后的输出结果,式中LayerNorm皆为正则化层,PLSA表示局部自注意力,GSA表示全局自注意力。
进一步的,所述S3,具体包括:采用门控单元算法自适应的调整当前编码器块为相应的解码器提供的细节信息,并对过滤后的编码器低层特征和解码器的高层特征采用特征融合算法进行融合,并通过特征细化算法对融合后的特征进行细化;
门控单元将一阶段的解码器特征图进行3×3的卷积并缩减特征图通道数到与当前阶段的编码器特征图/>相同;
再连接一个Sigmoid激活函数和一个全局平均池化得到门控值gt,再将gt与编码器特征相乘;
则门控单元的计算表示为:
其中,Conv指的是3×3的卷积,表示Sigmoid激活函数,t表示不同的编码器和解码器阶段;
将过滤后的低层特征与高层特征输入到特征融合模块进行融合;
所述特征融合模块,对低层特征使用卷积,并压缩其通道数直到匹配解码器高级特征;沿着通道轴进行池化,并通过Sigmoid激活函数,生成空间上下文注意力W,并将W与F逐元素相乘;
将得到的特征与高级特征进行拼接,并对拼接后的特征进行卷积融合,得到融合特征;则融合过程表示为:
其中,σ为Sigmoid激活函数,为逐元素乘法,Conv表示3×3卷积,ChannelPool表示沿通道轴的池化,Upsample表示上采样,Concat表示逐通道级联操作,/>表示生成的空间上下文注意力,/>表示对来自编码器的特征与空间上下文注意力相乘后得到的增强后的特征图,/>表示对当前编码器特征与后一阶段解码器特征进行融合后的结果;
将融合后的特征图输入到特征细化模块对融合后的特征进一步的细化,得到融合了第三阶段和第四阶段的特征图,并将此特征图作为解码器的高层特征接着与解码器的第二、一阶段的低层特征图进行相同的操作,得到融合并细化后的特征图;
所述细化特征模块对输入的特征进行一个3×3卷积操作,得到/>使用另外一个3×3卷积将/>的通道数扩大2倍得到/>将/>按通道数平均分成两半,前一半作为权重/>后一半作为偏置/>将得到的权重/>和偏置/>分别与/>进行逐元素相乘后相加得到细化特征/>
则特征细化模块描述为:
其中,表示逐元素乘法,/>表示逐元素加法,Conv表示卷积,δ表示ReLU激活函数。
进一步的,所述S4,具体包括:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图分别使用双线性插值上采样至与第一阶段的特征图大小相同,使用级联操作对四个特征图在通道维度进行拼接,接着使用3×3卷积对拼接后的特征图进行融合,得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图,对特征图使用1×1卷积进行分类,并上采样至原图大小,得到最终预测图。
进一步的,所述S5中,将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图进行深度监督训练,具体包括:将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图分别上采样至原图大小,并使用1×1卷积进行分类得到三个预测图,分别计算预测图与真实图的交叉熵损失和Dice损失之和以最小化预测图与真实值之差。
进一步的,所述S6中,计算总损失,将所述S5得到的三个预测图与建筑物标签图计算交叉熵损失和Dice损失之和作为分支损失,将S4中得到的最终预测图计算的损失作为主损失,其中,分支损失分别乘以一个权重,总损失即为主损失与分损失之和,则总损失表示为:
ldom=laux=lce+ldice (18)
式中,ldom表示主损失,laux表示分支损失,αi表示权重系数,lce表示交叉熵损失,ldice表示Dice损失;
所述交叉熵损失计算公式如下:
式中,N表示所有像素点的总数,yi表示每个像素的真实值,表示每个像素的预测值;
所述Dice损失计算公式如下:
式中,Y表示真实值,表示预测值。
本发明的有益效果在于:
第一,本发明提出的一种基于局部和全局多尺度上下文的高分辨率光学遥感影像建筑提取建模框架,能进行多尺度的局部和全局上下文特征提取,充分捕获图像中特征之间的局部和远程依赖关系,提高对大型建筑物提取能力。
第二,本发明提出了门控机制用来抑制和平衡从编码器块流向解码器的信息,自适应的调整当前的编码器块为响应的解码器块提供的上下文信息。
第三,本发明提出了特征融合模块,融合编码器的低级细节特征和解码器的高级语义特征,增强目标的响应,抑制来自编码器的背景噪声,可以提高分建筑提取的准确率。
第四,本发明提出的特征细化模块将对融合后的图像进一步细化,解决了在提取大型建筑物时出现的孔洞问题。
第五,发明中添加了Dice损失,有效缓解了数据集中样本不均衡的影响。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明具体步骤流程图;
图2为本发明中的模型结构示意图;
图3为编码器中的Transformer Block模块整体结构示意图;图3(a)为编码器中的Transformer Block模块结构示意图;图3(b)为PLSA模块结构示意图;图3(c)为CSA模块结构示意图;
图4为建筑提取效果示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本实施列为:马萨诸塞州建筑数据集建筑提取。
请参阅图1~图4,为基于Transformer的遥感影像建筑物提取方法,该方法具体为:
S1:将获取的遥感建筑物数据集图像采用滑动窗口的方式进行裁剪,并对标注图像进行处理,并将数据集按划分为训练集、验证集和测试集,并对训练集图像进行数据增强;
具体的,将马萨诸塞州建筑数据集的标签图中的非建筑物区域的像素设置为0,建筑物区域的像素设置为1。并将数据集分为三部分,训练集中有137张图像,验证集中有4张图像,测试集中有10张图像,并将原始图像以0.5%的重叠比裁剪成大小为256×256的图片。
在训练过程中,对训练集进行数据增强,包括对图像进行水平翻转、垂直翻转、随机大小缩放、随机高斯噪声、限制对比度自适应直方图均衡和随机裁剪等方法。随机大小缩放默认使用0.5-2.0的缩放比例。水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强。最后进行随机裁剪,默认裁剪大小为256×256。
所有的方法组合在一起对原始图像进行增强。
S2:将训练集数据输入到Transformer编码器中,得到第一阶段~第四阶段,四个阶段不同尺度的特征图。
具体的,首先,将给定大小为256×256×3的RGB图像划分为4×4的图像块,然后将这些图像块输入到多层次的Transformer编码器中,依次通过每个阶段,并获得分辨率分别为原始图像{1/4,1/8,1/16,1/32}的多级特征,其中每个阶段的特征图通道数C1~C4分别为{64,128,256,512}。
其中,Transformer编码器包括四个阶段,如图2所示,每个阶段包括一个块嵌入层和若干个Transformer Block。本发明将每个阶段的Transformer Block数量分别设置为{1,1,5,2}。
每个块嵌入层由一个卷积核大小为4的卷积层、LayerNorm正则化层组成。将一个2×2×Ci的块特征转换成一个1×1×Ci+1的向量,实现特征图的收缩。并将此向量传入Transformer Block层,如图3(a)所示,每个Transformer Block都包含一对自注意力模块,分别为PLSA和GSA。其次包含一对Mix-FFN。
其中所述TransformerBlock的具体内容包括:
PLSA首先将二维特征图均匀划分为子窗口,窗口大小为7×7。并在每个窗口内计算自注意力,将多头注意力分成若干组,每个组捕捉一个尺度的上下文特征。对不同头注意力,Q保持不变,将K和V以不同的下采样率ri池化,产生多个粒度的Ki和Vi,其中下采样率默认采用{1,2,3,6}的比率进行池化如图3(b)所示。整个PLSA过程用公式(1-4)来描述:
Qi=FWi Q (1)
Ki,Vi=SPP(F,ri)Wi K,SPP(F,ri)Wi V (2)
PLSA=Concat(head0,head1,...,headi,...,headp)WO (4)
其中,F为输入的特征矩阵,Wi Q为得到查询向量Q的权重矩阵,Wi K和Wi V分别表示得到键向量K和数值向量V的权重矩阵,WO表示对拼接后的多头注意进行线性变换的权重矩阵,SPP指的是金字塔下采样,ri是下采样率,dh表示Ki的特征维数,headi表示第i头注意力,p表示每层一共p头注意力;
GSA通过卷积的方式从每个子窗口选出一个代表与其他子窗口进行通信,如图3(c)所示;
Mix-FFN使用3×3的卷积来编码位置信息,可表达为公式(5):
Fout=MLP(GELU(Conv3×3(MLP(Fin))))+Fin (5)
其中,Fin表示经过残差连接和层归一化后的自注意力层的输出,MLP为多层感知机,GELU指的是高斯误差线性单元激活函数;
在进入PLSA、GSA、和Mix-FFN之前都设置了一个正则化层LayerNorm,而在每层后面都加上残差连接,整个注意力块可以用公式(6)-(9)来表示:
其中,表示输入到Transformer块的图像序列,/>表示经过自注意力层后的输出结果,/>表示对自注意力输出的结果进行混合前馈编码后的输出,Fl表示经过金字塔局部自注意力Transformer块后的输出结果,/>表示经过全局下采样自注意力层后的输出结果,Fl+1表示经过全局下采样自注意力Transformer块后的输出结果,式中LayerNorm皆为正则化层,PLSA表示局部自注意力,GSA表示全局自注意力。
S3:将所述S2中得到第一阶段~第四阶段,四个阶段不同尺度的特征图依次输入解码器中,所述解码器对各个阶段不同尺度的特征图逐步融合高层特征和低层特征,并对融合后的特征图再次进行细化。
具体的,在本步骤中,将Transformer编码器各阶段输出的多级特征依次输入到解码器中,逐步集成来自编码器和解码器的多级特征图,生成四个不同尺度的经过融合并细化后的特征图包括:
先将编码器最后阶段输出的8×8×512高层特征输入解码器,并使用卷积操作将特征图的通道数变为256,接着使用双线性插值法对高层特征进行上采样2倍得到16×16×256的特征图。
然后将16×16×256的高层特征图输入到门控单元,得到门控值后与第三阶段特征图进行逐元素相乘得到过滤后的低层特征。
其中所述门控单元包括:
首先将后一阶段的解码器特征图进行3×3的卷积并缩减特征图通道数到与当前阶段的编码器特征图/>相同;
然后再接一个Sigmoid激活函数和一个全局平均池化得到门控值gt
再将gt与编码器特征相乘。门控单元的计算公式如下:
式中Conv指的是3×3的卷积,表示Sigmoid激活函数,t表示不同的编码器和解码器阶段。
再将过滤后的16×16×256低层特征与16×16×256的高层特征输入到特征融合模块进行融合。
其中,所述特征融合模块包括:
首先对低层特征使用3×3卷积,并压缩其通道数至256以匹配解码器高级特征;
然后沿着通道轴进行池化,接着通过一个Sigmoid激活函数,生成空间上下文注意力W,并将W与F逐元素相乘;
接着,将得到的特征与高层特征进行拼接,并对拼接后的特征进行3×3卷积融合,最终得到16×16×256的融合特征,融合过程描述为公式(12)-(14):
其中,σ为Sigmoid激活函数,为逐元素乘法,Conv表示3×3卷积,ChannelPool表示沿通道轴的池化,Upsample表示上采样,Concat表示逐通道级联操作,/>表示生成的空间上下文注意力,/>表示对来自编码器的特征与空间上下文注意力相乘后得到的增强后的特征图,/>表示对当前编码器特征与后一阶段解码器特征进行融合后的结果;
再将融合后的特征图输入到特征细化模块,对融合后的特征进一步的细化,得到融合了第三阶段和第四阶段的特征图,并将此特征图作为解码器的高层特征接着与解码器的第二、一阶段的低层特征图进行相同的操作,最终得到四个形状分别为64×64×256,32×32×256,16×16×256,8×8×256的经过融合并细化后的特征图。
其中,所述特征细化模块包括:
首先对输入的特征进行一个3×3卷积操作,得到/>
然后,使用另一个3×3卷积将的通道数扩大2倍得到/>
按通道数平均分成两半,前一半作为权重/>后一半作为偏置/>
再将得到的权重和偏置/>分别与/>进行逐元素相乘后相加得到细化特征/>特征细化模块可以描述为公式(15)-(17):
式中表示逐元素乘法,/>表示逐元素加法,Conv表示卷积,δ表示ReLU激活函数。
S4:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图采用级联的多尺度融合方法进行融合,得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图,并将各个阶段特征图融合后的结果经过处理得到一个最终预测图,并将最终预测图作为最终的建筑物提取结果;
具体为:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图分别使用双线性插值上采样至与第一阶段的特征图大小相同,形状皆为64×64×256;
然后使用使用级联操作对四个特征图在通道维度进行拼接,拼接后的形状为64×64×1024,接着使用3×3卷积对拼接后的特征图进行融合,得到64×64×256的特征图;
对融合后的结果使用1×1卷积进行分类,并上采样至原图大小,最终得到预测图。
S5:将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图进行深度监督训练,得到第二阶段~第四阶段,三个阶段的预测图,并作为辅助分类器进行训练。
具体的,将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图,分别上采样至原图大小,并使用1×1卷积进行分类得到三个预测图,分别计算预测图与真实图的交叉熵损失和Dice损失之和以最小化预测图与真实值之差,并减小样本不平衡的影响,通过深度监督能加快模型训练的收敛速度。
S6:将所述S4中解码器输出的最终预测图作为主分支,将所述S5中输出的第二阶段~第四阶段,三个阶段经过分类以及上采样后的特征图作为辅助分支,并使用AdamW优化器以及poly学习率调整策略,将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练,计算总损失,并通过反向传播来更新参数,取训练过程中总损失最小的模型参数作为最优模型参数。
具体的,采用分批次训练,批次大小为16。本发明使用AdamW优化器,并设置初始学习率为0.0006,权重衰减设为0.00025,使用系数为0.9的Poly学习率调整策略,并在训练时热身一个epoch。
所述计算总损失具体为:将S5中三个预测图和步骤S4中最终得到的预测图与建筑物标签图计算交叉熵损失和Dice损失作为分支损失,将步骤S4中最终得到的预测图计算的损失作为主损失,其中分支损失分别乘以一个权重,权重分别为(0.75,0.5,0.25),总损失即为主损失与分支损失之和,计算公式如下:
ldom=laux=lce+ldice (18)
式中ldom表示主损失,laux表示分支损失,αi表示权重系数,默认值为(0.25,0.5,0.75)。
其中所述交叉熵损失计算公式如下:
式中N表示所有像素点的总数,yi表示每个像素的真实值,表示每个像素的预测值。
所述Dice损失计算公式如下:
/>
式中Y表示真实值,表示预测值。
S7:将测试数据图像输入训练好的模型进行测试,选取IOU、OA、F1-Score、Precision、recall作为评价指标。
具体的:所述评价指标OA为全局准确率,方程为:(TP+TN)/(TP+TN+FP+FN);
所述评价指标Precision为精准率,方程为:(TP)/(TP+FP);
所述评价指标Recall为召回率,方程为:(TP)/(TP+FN);
所述评价指标F1-Score为精准率和召回率的调和平均数,方程为:(2×Presicion×Recall)/(Precision+Recall);
所述评价指标Iou为交并比,方程为:(TP)/(TP+FP+FN);
其中,所述方程中TP、TN、FP、FN分别表示为:
TP为正确预测为正类的样本数;
TN为正确预测为负类的样本数;
FP为错误预测为正类的样本数;
FN为错误预测为负类的样本数。
使用测试集数据进行测试,并选择一张图片导出最终建筑提取结果,如图4所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.基于Transformer的遥感影像建筑物提取方法,其特征在于:该方法包括以下步骤:
S1:将获取的遥感建筑物数据集图像划分为训练集、验证集和测试集,将训练集图像采用滑动窗口的方式进行裁剪,并对标注图像进行相应处理,然后对训练集图像进行数据增强;
S2:将所述S1中经过数据增强的训练集图像输入具有尺度感知的局部-全局上下文特征提取模型,所述模型对输入的遥感图像进行特征提取,得到第一阶段~第四阶段,四个阶段不同尺度的特征图;
S3:将所述S2中得到第一阶段~第四阶段,四个阶段不同尺度的特征图依次输入解码器中,所述解码器对各个阶段不同尺度的特征图逐步融合高层特征和低层特征,并对融合后的特征图再次进行细化;
S4:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图采用级联的多尺度融合方法进行融合,得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图,并将各个阶段特征图融合后的结果经过处理得到一个最终预测图,并将最终预测图作为最终的建筑物提取结果;
S5:将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图进行深度监督训练,得到第二阶段~第四阶段,三个阶段的预测图,并作为辅助分类器进行训练;
S6:将所述S4中解码器输出的最终预测图作为主分支,将所述S5中输出的第二阶段~第四阶段,三个阶段经过分类以及上采样后的特征图作为辅助分支,并使用AdamW优化器以及poly学习率调整策略,将解码器的主分支输出与辅助分支输出的损失函数相加进行联合训练,计算总损失,并通过反向传播来更新参数,取训练过程中总损失最小的模型参数作为最优模型参数。
2.根据权利要求1所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S1中,标注图像进行处理,具体为:将标签图中非建筑物区域的像素设置为0,建筑物区域的像素设置为1。
3.根据权利要求1所述的一种基于转换器模型的高分辨率遥感影像建筑物提取方法,其特征在于:所述S1中,数据增强具体包括:对图像进行随机大小缩放、随机水平翻转和垂直翻转、随机高斯噪声、限制对比度自适应直方图均衡及随机裁剪方法。
4.根据权利要求3所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述随机大小缩放默认使用0.5-2.0的缩放比例,所述随机水平翻转、垂直翻转、随机高斯噪声和限制对比度自适应直方图均衡法采用0.5的概率对图像进行数据增强,所述随机裁剪,默认裁剪大小为256×256。
5.根据权利要求3所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S2中,具有尺度感知的局部-全局上下文特征提取模型为一个拥有四个阶段的视觉Transformer编码器,所述四个阶段的视觉Transformer编码器的每一阶段包括一个嵌入层和若干个变压器组TransformerBlock;
每个嵌入层由一个卷积核大小为4的卷积层和LayerNorm正则化层组成;
每个TransformerBlock包括:一对自注意力模块和一对2层的混合前馈位置编码Mix-FFN模块,所述一对自注意力块分别为:金字塔局部自注意力PLSA模块和全局下采样自注意力GSA模块;
所述金字塔局部自注意力模块PLSA,将二维特征图均匀划分为子窗口,在窗口内计算自注意力,并将多头注意力分成若干个组,每个组捕捉一个尺度的上下文特征,对不同头注意力,查询向量Q不变,采用不同的下采样率ri对键向量K和数值向量V进行池化,产生多个粒度的Ki和Vi,整个PLSA过程表示为:
PLSA=Concat(head0,head1,...,headi,...,headp)WO (4)
其中,F为输入的特征矩阵,为得到查询向量Q的权重矩阵,/>和/>分别表示得到键向量K和数值向量V的权重矩阵,WO表示对拼接后的多头注意进行线性变换的权重矩阵,SPP指的是金字塔下采样,ri是下采样率,dh表示Ki的特征维数,headi表示第i头注意力,p表示每层一共p头注意力;
所述全局下采样自注意力模块GSA,将二维特征图划分为子窗口,通过卷积的方式从每个子窗口中选出一个代表与其它子窗口进行通信;
Mix-FFN使用n×n的卷积来编码位置信息,则表示为:
Fout=MLP(GELU(Convn×n(MLP(Fin))))+Fin (5)
其中,Fin表示经过残差连接和层归一化后的自注意力层的输出,MLP为多层感知机,GELU指的是高斯误差线性单元激活函数;
在进入每个自注意力模块和每个Mix-FFN模块之前应用一个LayerNorm层,并在每个模块之后应用一个残差连接,则整个注意力块表示为:
其中,表示输入到Transformer块的图像序列,/>表示经过自注意力层后的输出结果,/>表示对自注意力输出的结果进行混合前馈编码后的输出,Fl表示经过金字塔局部自注意力Transformer块后的输出结果,/>表示经过全局下采样自注意力层后的输出结果,Fl+1表示经过全局下采样自注意力Transformer块后的输出结果,式中LayerNorm皆为正则化层,PLSA表示局部自注意力,GSA表示全局自注意力。
6.根据权利要求5所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S3,具体包括:采用门控单元算法自适应的调整当前编码器块为相应的解码器提供的细节信息,并对过滤后的编码器低层特征和解码器的高层特征采用特征融合算法进行融合,并通过特征细化算法对融合后的特征进行细化;
门控单元将一阶段的解码器特征图进行3×3的卷积并缩减特征图通道数到与当前阶段的编码器特征图/>相同;
再连接一个Sigmoid激活函数和一个全局平均池化得到门控值gt,再将gt与编码器特征相乘;
则门控单元的计算表示为:
其中,Conv指的是3×3的卷积,表示Sigmoid激活函数,t表示不同的编码器和解码器阶段;
将过滤后的低层特征与高层特征输入到特征融合模块进行融合;
所述特征融合模块,对低层特征使用卷积,并压缩其通道数直到匹配解码器高级特征;沿着通道轴进行池化,并通过Sigmoid激活函数,生成空间上下文注意力W,并将W与F逐元素相乘;
将得到的特征与高级特征进行拼接,并对拼接后的特征进行卷积融合,得到融合特征;则融合过程表示为:
其中,σ为Sigmoid激活函数,为逐元素乘法,Conv表示3×3卷积,ChannelPool表示沿通道轴的池化,Upsample表示上采样,Concat表示逐通道级联操作,/>表示生成的空间上下文注意力,/>表示对来自编码器的特征与空间上下文注意力相乘后得到的增强后的特征图,/>表示对当前编码器特征与后一阶段解码器特征进行融合后的结果;
将融合后的特征图输入到特征细化模块对融合后的特征进一步的细化,得到融合了第三阶段和第四阶段的特征图,并将此特征图作为解码器的高层特征接着与解码器的第二、一阶段的低层特征图进行相同的操作,得到融合并细化后的特征图;
所述细化特征模块对输入的特征进行一个3×3卷积操作,得到/>使用另外一个3×3卷积将/>的通道数扩大2倍得到/>将/>按通道数平均分成两半,前一半作为权重后一半作为偏置/>将得到的权重/>和偏置/>分别与/>进行逐元素相乘后相加得到细化特征/>
则特征细化模块描述为:
其中,表示逐元素乘法,/>表示逐元素加法,Conv表示卷积,δ表示ReLU激活函数。
7.根据权利要求6所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S4,具体包括:将S3中解码器输出的第一阶段~第四阶段,四个阶段融合并细化后的多尺度特征图分别使用双线性插值上采样至与第一阶段的特征图大小相同,使用级联操作对四个特征图在通道维度进行拼接,接着使用3×3卷积对拼接后的特征图进行融合,得到融合各个阶段不同分辨率下具有丰富的语义信息和空间信息的特征图,对特征图使用1×1卷积进行分类,并上采样至原图大小,得到最终预测图。
8.根据权利要求7所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S5中,将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图进行深度监督训练,具体包括:将S3中解码器输出的第二阶段~第四阶段,三个阶段融合并细化后的多尺度特征图分别上采样至原图大小,并使用1×1卷积进行分类得到三个预测图,分别计算预测图与真实图的交叉熵损失和Dice损失之和以最小化预测图与真实值之差。
9.根据权利要求8所述的基于Transformer的遥感影像建筑物提取方法,其特征在于:所述S6中,计算总损失,将所述S5得到的三个预测图与建筑物标签图计算交叉熵损失和Dice损失之和作为分支损失,将S4中得到的最终预测图计算的损失作为主损失,其中,分支损失分别乘以一个权重,总损失即为主损失与分损失之和,则总损失表示为:
ldom=laux=lce+ldice (18)
式中,ldom表示主损失,laux表示分支损失,αi表示权重系数,lce表示交叉熵损失,ldice表示Dice损失;
所述交叉熵损失计算公式如下:
式中,N表示所有像素点的总数,yi表示每个像素的真实值,表示每个像素的预测值;
所述Dice损失计算公式如下:
式中,Y表示真实值,表示预测值。
CN202311479022.6A 2023-11-08 2023-11-08 基于Transformer的遥感影像建筑物提取方法 Pending CN117351363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311479022.6A CN117351363A (zh) 2023-11-08 2023-11-08 基于Transformer的遥感影像建筑物提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311479022.6A CN117351363A (zh) 2023-11-08 2023-11-08 基于Transformer的遥感影像建筑物提取方法

Publications (1)

Publication Number Publication Date
CN117351363A true CN117351363A (zh) 2024-01-05

Family

ID=89363112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311479022.6A Pending CN117351363A (zh) 2023-11-08 2023-11-08 基于Transformer的遥感影像建筑物提取方法

Country Status (1)

Country Link
CN (1) CN117351363A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746045A (zh) * 2024-02-08 2024-03-22 江西师范大学 一种Transformer和卷积融合的医学图像分割方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746045A (zh) * 2024-02-08 2024-03-22 江西师范大学 一种Transformer和卷积融合的医学图像分割方法及系统
CN117746045B (zh) * 2024-02-08 2024-05-28 江西师范大学 一种Transformer和卷积融合的医学图像分割方法及系统

Similar Documents

Publication Publication Date Title
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN111209921A (zh) 基于改进的YOLOv3网络的车牌检测模型及构建方法
CN112308200A (zh) 神经网络的搜索方法及装置
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN112784756B (zh) 人体识别跟踪方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114283120B (zh) 一种基于领域自适应的端到端多源异质遥感影像变化检测方法
CN117351363A (zh) 基于Transformer的遥感影像建筑物提取方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN113743417A (zh) 语义分割方法和语义分割装置
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN113298032A (zh) 基于深度学习的无人机视角图像的车辆目标检测方法
CN116012722A (zh) 一种遥感影像场景分类方法
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
Jiang et al. Forest-CD: Forest change detection network based on VHR images
CN113205103A (zh) 一种轻量级的文身检测方法
CN116012395A (zh) 一种基于深度可分离卷积的多尺度融合烟雾分割方法
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination