CN114581770A - 基于TransUnet的遥感影像建筑物自动提取处理方法 - Google Patents
基于TransUnet的遥感影像建筑物自动提取处理方法 Download PDFInfo
- Publication number
- CN114581770A CN114581770A CN202210146517.6A CN202210146517A CN114581770A CN 114581770 A CN114581770 A CN 114581770A CN 202210146517 A CN202210146517 A CN 202210146517A CN 114581770 A CN114581770 A CN 114581770A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- layer
- convolution
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013461 design Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 63
- 238000010606 normalization Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000011049 filling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000011068 loading method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 238000002910 structure generation Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000012855 volatile organic compound Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
基于TransUnet的遥感影像建筑物自动提取处理方法,涉及到遥感影像中建筑物自动提取处理方法领域。解决现有深度学习技术从卫星影像上自动提取建筑物可靠性差,通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和Transformer结合的TransUnet来提升生成网络的性能。提升了建筑物提取网络的表达能力;采用融合transformer结构、域自适应和弱监督等策略来提升卫星影像建筑物提取的能力。
Description
技术领域
本发明涉及到计算机图像处理中图像特征提取方法技术领域,具体涉及到遥感影像中建筑物自动提取处理方法领域。
背景技术
建筑物提取对城市规划、城市动态监测、城市增长检测、违章建筑物识别以及地理信息更新等领域具有重要的应用价值和商业价值。然而,传统的基于调查和普查的人工方法耗时长、成本高。随着深度学习技术的实现和卫星影像数据的普及,从卫星影像上自动提取建筑物已成为了现实。但同一物体和场景在不同卫星图像中的变化通常较为剧烈,对于建筑物等人造结构这些变化更为突出。此外,由于不同的天气条件、不同的地形以及传感器间的差异性,即使同一区域的卫星图像通常也存在较大差异,面向地面场景的计算机视觉领域网络结构也难以直接应用至卫星遥感影像中进行建筑物提取。
发明内容
综上所述,本发明的目的在于解决现有深度学习技术从卫星影像上自动提取建筑物可靠性差,和面向地面场景的神经网络难以直接应用至遥感影像中建筑物提取的问题,而提出基于TransUnet的遥感影像建筑物自动提取处理方法。
为解决本发明所提出的技术不足,采用的技术方案为:
基于TransUnet的遥感影像建筑物自动提取处理方法,所述方法通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;其特征在于:构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和Transformer结合的TransUnet来提升生成网络的性能;在域自适应方面采用基于GAN的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。
作为对本发明作进一步限定的技术方案包括有:
所述生成网络设计是将输入的图像向量的特征进行编码,然后再利用解码器将图像向量的特征进行解码操作,通过跳跃连接连接不同的层获取更多有用的特征;在结构上生成网络主要由编码器(encoder)、注意力网络(transformer)和解码器(decoder)三部分组成。
所述编码器(encoder)包含一层最大池化(max pooling)和三层由卷积(convoluton)、修正线性单元(Rectified Linear Unit,ReLU)、组归一化(GroupNormalization)所组成的堆叠结构;其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积+组归一化+修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积+组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元;在这一部分中,最大池化的卷积核为3×3,步长为2,不进行填充(padding);三层堆叠结构部分的卷积核为7×7,步长为2,填充为3;原始特征首先经过一次卷积和最大池化,输出特征图(feature map)的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。
所述注意力网络(transformer)为transformer层堆叠模块;负责对上一步提取到的特征进行编码操作,包括12个完全相同的transformer层;其中,单个transformer层是由层归一化(Layer Normalization)、注意力模块(Attention)和多层感知器(MLP)组成的结构;其中,注意力模块的步骤如下:
第一步,得到查询向量(query)、键向量(key)、值向量(value);
第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;
第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头;多层感知机是由若干线性层、激活层堆叠而成的结构;每一个单独的transformer层的做法是将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer层,循环往复12次;最终输出的特征图的高和宽不变,仍均为原始影像的1/16。
单个transformer层内部结构包括自注意力层(self-attention)和前馈神经网络(feed-forward networks)两层网络,而自注意力层则会计算三个向量:查询向量(Query)、键向量(Key)和值向量(Value),进行如下操作,得到attention的值,
其中Q,K,V分别是查询向量(Query)、键向量(Key)和值向量(Value),dk是Q,K矩阵的列数,即向量维度。
所述解码器(decoder)是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样(UpsamplingBilinear2d)和两组连续的卷积(convoluton)与修正线性单元(ReLU);其中卷积核均为3×3,步长为1,填充为1;每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次;最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小;再将和原始影像相同大小的特征拼接后传入最后一层卷积网络(segmentation head)生成逐像素的预测图,即最终的建筑物提取结果。
域自适应网络结构采用全卷积神经网络结构;包括5个深度分别是256,256,128,64,1的卷积层,每层卷积核尺寸为3×3,步长和填充参数均为1;前四层的卷积层后接一个激活函数(LeakyRelu),最后一层卷积后添加了上采样层,使输出尺寸和原图像的尺寸相匹配。
弱监督网络结构是由卷积、上采样、最大池化和全连接操作构成,其中卷积核尺寸为3×3,步长和填充参数均为1;输入为生成器中编码器生成的最高阶的隐藏特征与解码器生成的最低阶的浅层特征;将隐藏特征经卷积和上采样处理,浅层特征经卷积和最大池化处理,然后进行拼接处理得到的新特征图,最后将新特征图进行两次卷积操作后输入全连接层,计算出图像中含有建筑物的概率值。
损失函数包含生成网络的分割损失、域自适应网络的对抗损失和弱监督网络的类别损失,如下:
L=Lseg+Ld+Lclass
其中,Lseg为生成网络的分割损失,定义为预测图像和真实标签间的交叉熵值,计算公式如下:
其中Ys为源域影像的真实标签,G(Is)∈RH×W×1为生成器的特征图输出结果,H、W分别为影像的高度和宽度,i、j分别为像素点的纵坐标和横坐标,Is为影像像素值;
Ld为域自适应网络的对抗损失,计算公式如下:
其中G(It)为生成网络生成的隐藏特征,Z为与隐藏特征的同尺寸矩阵,当输入生成器的图像为源域时,则Z矩阵向量全填充为1;当输入变量为目标域影像时,则Z矩阵向量全填充为0;
Lclass为弱监督网络的类别损失,计算公式如下:
其中G(It)为目标域图像在生成网络生成的隐藏特征,B(G(It))是网络预测图像中是否含有建筑物的概率,bt为图像是否含有分割建筑物的弱标签,若bt为0,则当前图像无建筑物影像,否则该图像含有建筑物影像。
在模型训练上引入了域自适应和弱监督策略,包括有如下步骤:
步骤1,数据集扩展与加载;首先将数据集裁剪按一定的尺度范围随机裁切,然后缩放至固定大小尺寸,经过清洗和校对去除有问题的数据,然后对部分裁切后的影像进行旋转、添加噪声处理,达到数据集扩展的目的,之后对每张建筑的语义标签图像进行处理,生成图像级标签,最后按照一定比例将数据集划分为训练、验证和测试三个部分;
步骤2,源域和目标域交替训练;训练时,先将源域数据和目标域数据都读取到字典中,然后分别轮流取出源域图片和目标域图片进行训练,实现源域、目标域数据集交替训练;训练时源域加载的是原始影像、语义标签和相对应的图像级标签,目标域加载的是原始影像和相对应的图像级标签;
步骤3,超参数设置;训练参数设置上,优化器使用的是Adam优化器,生成网络的初始学习率设置为0.001,域自适应网络的初始学习率为0.00001;动量设置为0.9和0.999,权重衰减设置为1e-6;
步骤4,模型精度评价;计算检测结果与真值标签的各参数指标,包括二者的交并比(Intersection over Union,IoU)、正确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1得分(F1-Score);其中IOU用于衡量预测结果与真值标签的交并比;Accuracy用于衡量预测正确的像素值与所有情况的比列;Precision用于衡量正样本结果与被预测正样本数据的比值;Recall用于衡量预测正确的结果占真实正样本的比值;F1-Score用于衡量本模型的有效性。
本发明的有益效果为:本发明引入医学影像分割领域最新的TransUnet[L1]作为建筑物提取的生成网络,该网络采用transformer和cnn相结合的结构,可以充分利用两类网络的各自优势,提升了建筑物提取网络的表达能力;采用融合transformer结构、域自适应和弱监督等策略来提升卫星影像建筑物提取的能力。在模型训练上引入了域自适应和弱监督策略,在此基础上设计了全新的遥感影像建筑物弱监督提取网络结构,提升了训练后建筑物提取网络的泛化扩展性能。
附图说明
图1是遥感影像建筑物弱监督提取网络结构图。
图2是transformer层内部结构图。
具体实施方式
以下结合附图和本发明具体实施例对本发明作进一步地说明。
本发明所公开的基于TransUnet的遥感影像建筑物自动提取处理方法,通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和Transformer结合的TransUnet来提升生成网络的性能;在域自适应方面采用基于GAN的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。也即本发明采用融合transformer结构、域自适应和弱监督等策略来提升卫星影像建筑物提取的能力。Transformer最初用于解决自然语言处理(NLP)问题,近年来在计算机视觉领域表现也很优秀,很多使用transformer的网络结构表现优于单纯的卷积神经网络。TransUnet为卷积网络和transformer相结合的网络结构,架构上延续了Unet网络的编码-解码(encoder-decoder)架构,Transformer在其中的作用类似于注意力(Attention)模型。
弱监督学习是指在训练时,采用的数据集的标签不够完善,如只给了一部分数据的标签,即不完全监督;或者只给二值标签,即不确切监督;或者给出的标签不都是正确的,即不精确监督。尽管很多学者已经证明了监督学习技术在数据集足够的情况下效果良好,但由于数据标注的成本较高,不同区域间训练的网络模型难以直接扩展使用,这种情况下需要采用弱监督学习技术来提升模型的扩展能力。在本发明的实验中融合的是不确切监督。我们目标域数据集采用的是图像级标签进行训练,能够利用辅助任务从大规模的弱监督数据中构造监督信息,从而学习到有价值的表征。
在机器学习任务中,当源域和目标域数据分布不同,但是两者的任务相同时,这种特殊的迁移学习就是域自适应。域自适应方法包括样本自适应、特征自适应和模型自适应三种。样本自适应是对源数据每一个样本加权,学习一组权使得分布差异最小化,然后重新采样,从而逼近目标域的分布。特征自适应是将源域和目标域投影到公共特征子空间,这样两者的分布相匹配,通过学习公共的特征表示,这样在公共特征空间,源域和目标域的分布就会相同。模型自适应是考虑目标域的误差,对源域误差函数进行修改。在遥感影像建筑物提取任务中,源域指具有建筑语义标签的区域,目标域指没有标注建筑语义标签的区域,域自适应将在源域学习到的模型扩展到目标区域,使之尽可能适应目标区域的情况。在本发明中,我们采用基于对抗神经网络(GAN)的域自适应方法,使得源域和目标域特征分布尽可能一致,从而提升模型的泛化扩展能力。
在本发明方法中,首先采用卷积和Transformer结合的TransUnet来提升生成网络的性能,在域自适应方面采用基于GAN的生成对抗网络技术,将源域和目标域之间的分布差距最小化,在弱监督方面主要依靠图像级标签对生成网络进一步约束。同时,为了证明了本发明算法的有效性与可行性,采用了WHU、Massachusetts等开源建筑物提取数据集对提出的算法进行了验证。
如图1中所示,本发明整体网络结构包含生成网络、域自适应网络和弱监督网络三个部分。构建遥感影像建筑物提取算法网络的具体步骤如下:
步骤1,生成网络设计。整个生成网络实现的基本思想和经典的Unet网络类似,将输入的图像向量的特征进行编码,然后再利用解码器将这些特征进行解码操作,通过跳跃连接(skip-connection)连接一些不同的层后获取更多有用的特征。在结构上生成网络主要由编码器(encoder)、注意力网络(transformer)和解码器(decoder)三部分组成。其中,
编码器,这一部分包含一层最大池化(max pooling)和三层由卷积(convoluton)、修正线性单元(Rectified Linear Unit,ReLU)、组归一化(Group Normalization)所组成的堆叠结构。其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积+组归一化+修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积+组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元。在这一部分中,最大池化的卷积核为3×3,步长为2,不进行填充(padding)。三层堆叠结构部分的卷积核为7×7,步长为2,填充为3。原始特征首先经过一次卷积和最大池化,输出特征图(feature map)的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。注意力网络,注意力网络为transformer层堆叠模块。这一部分的作用是负责对上一步提取到的特征进行编码操作,整个模块包括12个完全相同的transformer层。其中,单个transformer层是由层归一化(Layer Normalization)、注意力模块(Attention)和多层感知器(MLP)组成的结构。其中,注意力模块的步骤如下:第一步,得到查询向量(query)、键向量(key)、值向量(value);第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头。多层感知机是由若干线性层、激活层堆叠而成的结构。每一个单独的transformer layer的具体做法是,将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer layer,循环往复12次。这就是整个编码器的过程。最终输出的特征图的高和宽仍均为原始影像的1/16。
单个transformer层内部结构主要包括自注意力层(self-attention)和前馈神经网络(feed-forward networks)两层网络,而自注意力层则会计算三个向量:查询向量(Query)、键向量(Key)和值向量(Value),这三个向量是embedding向量与一个随机初始化的矩阵相乘得到的结果。当得到这三个矩阵之后,进行如下操作,得到attention的值,这个值决定了某个特征对全局特征的关注程度:
其中Q,K,V分别是查询向量(Query)、键向量(Key)和值向量(Value),dk是Q,K矩阵的列数,即向量维度。
解码器,将经过12层的transformer layer后得到的隐藏特征传入解码器进行解码,解码器是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样(UpsamplingBilinear2d)和两组连续的卷积(convoluton)与修正线性单元(ReLU)。其中卷积核均为3×3,步长为1,填充为1。每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次。最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小。再将和原始影像相同大小的特征拼接后传入最后一层卷积网络(segmentation head)生成逐像素的预测图,即最终的建筑物提取结果。
步骤2,域自适应网络设计。本发明的域自适应网络结构采用了一种全卷积神经网络结构。该结构包括5个深度分别是256,256,128,64,1的卷积层,每层卷积核尺寸为3×3,步长和填充参数均为1。前四层的卷积层后接一个激活函数(LeakyRelu),最后一层卷积后添加了上采样层,使输出尺寸和原图像的尺寸相匹配。
步骤3,弱监督网络设计。本发明的弱监督网络结构是由卷积、上采样、最大池化和全连接等操作构成,其中卷积核尺寸为3×3,步长和填充参数均为1。输入为生成器中编码器生成的最高阶的隐藏特征与解码器生成的最低阶的浅层特征(见图1)。为解决尺寸不一致无法拼接的问题,将隐藏特征经卷积和上采样处理,浅层特征经卷积和最大池化处理,然后进行拼接处理得到的新特征图,最后将新特征图进行两次卷积操作后输入全连接层,计算出图像中含有建筑物的概率值。
步骤4,损失函数设计。根据设计的网络结构,本发明的损失函数包含生成网络的分割损失、域自适应网络的对抗损失和弱监督网络的类别损失三类。具体如下:
L=Lseg+Ld+Lclass
其中,Lseg为生成网络的分割损失,定义为预测图像和真实标签间的交叉熵值,计算公式如下:
其中Ys为源域影像的真实标签,G(Is)∈RH×W×1为生成器的特征图输出结果,H、W分别为影像的高度和宽度,i、j分别为像素点的纵坐标和横坐标,Is为影像像素值。
Ld为域自适应网络的对抗损失,计算公式如下:
其中G(It)为生成网络生成的隐藏特征,Z为与隐藏特征的同尺寸矩阵,当输入生成器的图像为源域时,则Z矩阵向量全填充为1;当输入变量为目标域影像时,则Z矩阵向量全填充为0。
Lclass为弱监督网络的类别损失,计算公式如下:
其中G(It)为目标域图像在生成网络生成的隐藏特征,B(G(It))是网络预测图像中是否含有建筑物的概率,bt为图像是否含有分割建筑物的弱标签,若bt为0,则当前图像无建筑物影像,否则该图像含有建筑物影像。
本发明在模型训练上引入了域自适应和弱监督策略,在模型训练方面,可以分为数据集扩展与加载、源域和目标域交替训练、超参数设置、模型精度评价四个部分,具体如下:
步骤1,数据集扩展与加载。在本发明中,我们首先将数据集裁剪按一定的尺度范围(如256-2000)随机裁切,然后缩放至固定大小尺寸(如256*256),经过清洗和校对去除有问题的数据,然后对部分裁切后的影像进行旋转、添加噪声等处理,达到数据集扩展的目的,之后对每张建筑的语义标签图像进行处理,生成图像级标签(是否包含建筑),最后按照一定比例将数据集划分为训练、验证和测试三个部分。
步骤2,源域和目标域交替训练。本发明的神经网络进行训练时,先将源域数据和目标域数据都读取到字典中,然后分别轮流取出源域图片和目标域图片进行训练,实现源域、目标域数据集交替训练。训练时源域加载的是原始影像、语义标签和相对应的图像级标签,目标域加载的是原始影像和相对应的图像级标签。
步骤3,超参数设置。本发明的神经网络训练参数设置上,优化器使用的是Adam优化器,生成网络的初始学习率设置为0.001,域自适应网络的初始学习率为0.00001。动量设置为0.9和0.999,权重衰减设置为1e-6。
步骤4,模型精度评价。计算检测结果与真值标签的各参数指标,包括二者的交并比(Intersection over Union,IoU)、正确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1得分(F1-Score)。其中IOU用于衡量预测结果与真值标签的交并比;Accuracy用于衡量预测正确的像素值与所有情况的比列;Precision用于衡量正样本结果与被预测正样本数据的比值;Recall用于衡量预测正确的结果占真实正样本的比值;F1-Score用于衡量本模型的有效性。
以下结合具体案例,对本发明作进一步说明。
首先,按照本发明方法构建遥感影像建筑物提取算法网络;然后,获取训练样本数据。我们采用了具有明显风格差异的数据集进行了实验。源域数据集选取了WHU数据集中的2016年建筑物数据集(缩写为WHU2016),目标域数据集选取了马萨诸塞州(Massachusetts)建筑物数据集。WHU2016与马萨诸塞州数据集的影像间具有明显的辐射差异,此外,除了辐射差异外,建筑物类型和尺寸差异明显。每个数据集分为训练、验证和测试三类。
在弱监督实验前,需要选取合适的主干网络,为此,我们选取了Deeplab v3、Deeplab Xception、PSPNet、Unet、transUnet等典型语义分割网络,在分割难度较大的Massachusetts数据集上进行了对比实验。详细实验结果如表1的结果所示,可以看出的transUnet网络获得了最佳性能,为此我们在后续的实验中选择transUnet作为实验的主干网络。
表1 Massachusetts数据集上不同主干网络的全监督训练性能比较
为了更好地探究每个模块对整体网络分割性能的影响,我们进行了消融实验。整个实验分为三个部分:第一,在源域上进行全监督训练,将训练后的网络模型直接在目标域上进行精度评定(Generator);第二,训练数据包含源域像素级标签和目标域图像级弱标签,训练时源域数据和目标域数据交替进行,训练后的网络模型在目标域上进行精度评定(Generator+BuiltNet);第三,在第二部分基础上引入了鉴别器来判别来自源域或者目标域的图像,通过鉴别器损失函数来提升其鉴别性能与生成器的泛化性能,使得源域与目标域的影像能够在潜在空间中对齐域分布(Generator+BuiltNet+Discriminator)。在数据集使用上,源域数据采用了WHU2016,目标域采用Massachusetts数据集进行消融实验,结果见表2,其中Upper Bound为目标域上的全监督训练结果,作为模型所能达到的精度上限。
表2基于Massachusetts建筑物数据集的消融实验结果
由此可见,本发明所提出的融合域自适应和弱监督策略的遥感影像建筑物提取方法有效地提升了建筑物提取模型的泛化性能。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.基于TransUnet的遥感影像建筑物自动提取处理方法,所述方法通过构建遥感影像建筑物提取算法网络,经模型训练获取训练样本数据后,用于遥感影像建筑物自动提取;其特征在于:构建遥感影像建筑物提取算法网络的步骤包括有;生成网络设计、域自适应网络设计、弱监督网络设计和损失函数设计;采用卷积和Transformer结合的TransUnet来提升生成网络的性能;在域自适应方面采用基于GAN的生成对抗网络技术,将源域和目标域之间的分布差距最小化;在弱监督方面依靠图像级标签对生成网络进一步约束,采用开源建筑物提取数据集对提出的算法进行验证。
2.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述生成网络设计是将输入的图像向量的特征进行编码,然后再利用解码器将图像向量的特征进行解码操作,通过跳跃连接连接不同的层获取更多有用的特征;在结构上生成网络主要由编码器、注意力网络和解码器三部分组成。
3.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述编码器包含一层最大池化和三层由卷积、修正线性单元、组归一化所组成的堆叠结构;其中,堆叠的三层结构是完全相同的,都是由3组连续的卷积+组归一化+修正线性单元组成,每层的输出结果除传递到下一层外还用于后续的跳跃连接,在最后一组的卷积+组归一化过后,将得到的特征与起始特征进行拼接,再经过修正线性单元;在这一部分中,最大池化的卷积核为3×3,步长为2,不进行填充(padding);三层堆叠结构部分的卷积核为7×7,步长为2,填充为3;原始特征首先经过一次卷积和最大池化,输出特征图的高度与宽度均变为该层输入的1/2;之后再经过三个堆叠结构,每经过一层堆叠结构,输出特征图的高度与宽度也变为该层输入的1/2;最终输出的特征图的高和宽均变为原始影像的1/16。
4.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述注意力网络为transformer层堆叠模块;负责对上一步提取到的特征进行编码操作,包括12个完全相同的transformer层;其中,单个transformer层是由层归一化、注意力模块和多层感知器(MLP)组成的结构;其中,注意力模块的步骤如下:
第一步,得到查询向量、键向量、值向量;
第二步,用查询向量和键向量的点积,除以键向量的维数的开方,再经过softmax得到权值;
第三步,对值向量进行加权求和,得到输出向量,该向量也被称为一个注意力头;多层感知机是由若干线性层、激活层堆叠而成的结构;每一个单独的transformer层的做法是将接收到的原始特征进行一次层归一化后传入注意力模块得到隐藏特征,再将原始特征与隐藏特征拼接后的复合特征继续层归一化后传入多层感知机得到第二个隐藏特征,再将复合特征与此隐藏特征拼接后传入下一个transformer层,循环往复12次;最终输出的特征图的高和宽不变,仍均为原始影像的1/16。
6.根据权利要求2基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:所述解码器是由三个完全相同的解码块和一个上采样构成,每个解码块包含一个上采样和两组连续的卷积与修正线性单元;其中卷积核均为3×3,步长为1,填充为1;每个解码块会将输入的特征图的高和宽均放大2倍,每个解码块输出的特征将会与编码器的多层卷积模块部分生成的多级特征进行拼接,再将结果输入到下一个解码块,迭代3次;最后的解码块输出的特征图的高和宽为原始影像的1/2,再经过一次上采样变为和原始影像相同大小;再将和原始影像相同大小的特征拼接后传入最后一层卷积网络生成逐像素的预测图,即最终的建筑物提取结果。
7.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:域自适应网络结构采用全卷积神经网络结构;包括5个深度分别是256,256,128,64,1的卷积层,每层卷积核尺寸为3×3,步长和填充参数均为1;前四层的卷积层后接一个激活函数,最后一层卷积后添加了上采样层,使输出尺寸和原图像的尺寸相匹配。
8.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:弱监督网络结构是由卷积、上采样、最大池化和全连接操作构成,其中卷积核尺寸为3×3,步长和填充参数均为1;输入为生成器中编码器生成的最高阶的隐藏特征与解码器生成的最低阶的浅层特征;将隐藏特征经卷积和上采样处理,浅层特征经卷积和最大池化处理,然后进行拼接处理得到的新特征图,最后将新特征图进行两次卷积操作后输入全连接层,计算出图像中含有建筑物的概率值。
9.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:损失函数包含生成网络的分割损失、域自适应网络的对抗损失和弱监督网络的类别损失,如下:
L=Lseg+Ld+Lclass
其中,Lseg为生成网络的分割损失,定义为预测图像和真实标签间的交叉熵值,计算公式如下:
其中Ys为源域影像的真实标签,G(Is)∈RH×W×1为生成器的特征图输出结果,H、W分别为影像的高度和宽度,i、j分别为像素点的纵坐标和横坐标,Is为影像像素值;
Ld为域自适应网络的对抗损失,计算公式如下:
其中G(It)为生成网络生成的隐藏特征,Z为与隐藏特征的同尺寸矩阵,当输入生成器的图像为源域时,则Z矩阵向量全填充为1;当输入变量为目标域影像时,则Z矩阵向量全填充为0;
Lclass为弱监督网络的类别损失,计算公式如下:
其中G(It)为目标域图像在生成网络生成的隐藏特征,B(G(It))是网络预测图像中是否含有建筑物的概率,bt为图像是否含有分割建筑物的弱标签,若bt为0,则当前图像无建筑物影像,否则该图像含有建筑物影像。
10.根据权利要求1基于TransUnet的遥感影像建筑物自动提取处理方法,其特征在于:在模型训练上引入了域自适应和弱监督策略,包括有如下步骤:
步骤1,数据集扩展与加载;首先将数据集裁剪按一定的尺度范围随机裁切,然后缩放至固定大小尺寸,经过清洗和校对去除有问题的数据,然后对部分裁切后的影像进行旋转、添加噪声处理,达到数据集扩展的目的,之后对每张建筑的语义标签图像进行处理,生成图像级标签,最后按照一定比例将数据集划分为训练、验证和测试三个部分;
步骤2,源域和目标域交替训练;训练时,先将源域数据和目标域数据都读取到字典中,然后分别轮流取出源域图片和目标域图片进行训练,实现源域、目标域数据集交替训练;训练时源域加载的是原始影像、语义标签和相对应的图像级标签,目标域加载的是原始影像和相对应的图像级标签;
步骤3,超参数设置;训练参数设置上,优化器使用的是Adam优化器,生成网络的初始学习率设置为0.001,域自适应网络的初始学习率为0.00001;动量设置为0.9和0.999,权重衰减设置为1e-6;
步骤4,模型精度评价;计算检测结果与真值标签的各参数指标,包括二者的交并比、正确率、精确度、召回率、F1得分;其中交并比用于衡量预测结果与真值标签的交并比;正确率用于衡量预测正确的像素值与所有情况的比列;精确度用于衡量正样本结果与被预测正样本数据的比值;召回率用于衡量预测正确的结果占真实正样本的比值;F1得分用于衡量本模型的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210146517.6A CN114581770A (zh) | 2022-02-17 | 2022-02-17 | 基于TransUnet的遥感影像建筑物自动提取处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210146517.6A CN114581770A (zh) | 2022-02-17 | 2022-02-17 | 基于TransUnet的遥感影像建筑物自动提取处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114581770A true CN114581770A (zh) | 2022-06-03 |
Family
ID=81774867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210146517.6A Pending CN114581770A (zh) | 2022-02-17 | 2022-02-17 | 基于TransUnet的遥感影像建筑物自动提取处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581770A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049160A (zh) * | 2022-08-12 | 2022-09-13 | 江苏省测绘工程院 | 时空大数据的平原工业型城市碳排放量评估方法及系统 |
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
CN115601662A (zh) * | 2022-11-21 | 2023-01-13 | 华中科技大学(Cn) | 一种高分辨率遥感影像提取建筑物的模型构建方法及应用 |
CN116665053A (zh) * | 2023-05-30 | 2023-08-29 | 浙江时空智子大数据有限公司 | 顾及阴影信息的高分辨遥感影像建筑物识别方法及系统 |
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN118691979A (zh) * | 2024-08-23 | 2024-09-24 | 中国测绘科学研究院 | 一种基于风格迁移的跨域建筑物提取方法及相关设备 |
-
2022
- 2022-02-17 CN CN202210146517.6A patent/CN114581770A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049160A (zh) * | 2022-08-12 | 2022-09-13 | 江苏省测绘工程院 | 时空大数据的平原工业型城市碳排放量评估方法及系统 |
CN115049160B (zh) * | 2022-08-12 | 2022-11-11 | 江苏省测绘工程院 | 时空大数据的平原工业型城市碳排放量评估方法及系统 |
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
CN115601662A (zh) * | 2022-11-21 | 2023-01-13 | 华中科技大学(Cn) | 一种高分辨率遥感影像提取建筑物的模型构建方法及应用 |
CN116665053A (zh) * | 2023-05-30 | 2023-08-29 | 浙江时空智子大数据有限公司 | 顾及阴影信息的高分辨遥感影像建筑物识别方法及系统 |
CN116665053B (zh) * | 2023-05-30 | 2023-11-07 | 浙江时空智子大数据有限公司 | 顾及阴影信息的高分辨遥感影像建筑物识别方法及系统 |
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN116862252B (zh) * | 2023-06-13 | 2024-04-26 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN118691979A (zh) * | 2024-08-23 | 2024-09-24 | 中国测绘科学研究院 | 一种基于风格迁移的跨域建筑物提取方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114581770A (zh) | 基于TransUnet的遥感影像建筑物自动提取处理方法 | |
CN111160276B (zh) | 基于遥感影像的u型空洞全卷积分割网络识别模型 | |
CN110942624B (zh) | 一种基于sae-gan-sad的路网交通数据修复方法 | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN116580241B (zh) | 基于双分支多尺度语义分割网络的图像处理方法及系统 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN115375604B (zh) | 一种基于量子化自编码器的无监督缺陷检测方法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN114022372B (zh) | 一种引入语义损失上下文编码器的掩膜图像修补方法 | |
CN116309536A (zh) | 一种路面裂缝检测方法及存储介质 | |
CN115131313A (zh) | 基于Transformer的高光谱图像变化检测方法及装置 | |
CN116596150A (zh) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 | |
CN118070107B (zh) | 一种面向深度学习的网络异常检测方法、装置、存储介质及设备 | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
Wang et al. | Data hiding in neural networks for multiple receivers [research frontier] | |
CN117408311A (zh) | 一种基于CNN、Transformer和迁移学习的小样本恶意网站检测方法 | |
CN116309348A (zh) | 一种基于改进TransUnet网络的月球南极撞击坑检测方法 | |
CN113313077A (zh) | 基于多策略和交叉特征融合的显著物体检测方法 | |
CN116596851A (zh) | 一种基于知识蒸馏和异常模拟的工业瑕疵检测方法 | |
CN115713695A (zh) | 基于多级Transformer网络的6G卫星图像滑坡检测方法 | |
CN116090010A (zh) | 基于上下文语境联系的文本生成式隐写方法 | |
CN116384357A (zh) | 基于序列到集合生成的表格生成方法及装置 | |
CN115408693A (zh) | 一种基于自适应计算时间策略的恶意软件检测方法及系统 | |
Li et al. | Hierarchical Transformer With Lightweight Attention for Radar-Based Precipitation Nowcasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |