CN117576402A - 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 - Google Patents
一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 Download PDFInfo
- Publication number
- CN117576402A CN117576402A CN202410049995.4A CN202410049995A CN117576402A CN 117576402 A CN117576402 A CN 117576402A CN 202410049995 A CN202410049995 A CN 202410049995A CN 117576402 A CN117576402 A CN 117576402A
- Authority
- CN
- China
- Prior art keywords
- model
- remote sensing
- attention
- sensing image
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 230000002776 aggregation Effects 0.000 title claims abstract description 19
- 238000004220 aggregation Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000013461 design Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000013210 evaluation model Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明公开一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,属于图像处理技术领域。本方法设计并提出一个用于遥感图像的语义分割模型,主要应用于高分辨遥感图像的场景理解等任务。该方法模型沿用UNet的框架设计,主要分为编码器和解码器两部分。本发明改进基于Transformer的遥感图像语义分割模型,可以高效地提取全局信息,更好地融合多尺度特征。相比于流行的基于Transformer的语义分割模型,本发明提出的模型拥有更少的参数量和计算量,大大减小资源占用,扩大了模型的实际应用场景。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法。
背景技术
在传感器技术的推动下,高分辨率遥感图像在全球范围内被越来越多的捕获,因其具有丰富的空间细节和潜在语义内容,遥感图像被广泛地用于语义分割和分类任务,出现了各种与之相关的应用,特别是具有高分辨率的城市遥感图像语义分割任务,如城市道路提取、城市规划和土地覆盖制图等。这些应用激励着研究人员探索有效和高效的分割网络。
深度学习的出现为遥感图像语义分割提供了一个新的方案。众多研究表明,与传统的图像语义分割方法相比,基于深度学习的图像语义分割方法可以极大地提高语义分割的精度,满足实际生产生活中的精度需要。由于遥感图像往往具有较大的分辨率和较大的尺度变化,这导致图像特征提取时面临“同类异谱”和“同谱异类”的问题,因此需要一种能够高效提取全局信息和局部信息的遥感图像语义分割方法解决遥感图像语义分割领域目前所面临的问题。同时,考虑到实际的应用场景,基于深度学习的遥感图像语义分割方法亟需在模型大小和计算复杂度上取得良好的平衡,解决难以在计算资源和存贮资源受限设备上部署应用的难题。
发明内容
本发明针对现有技术中存在的问题,提供一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,方法设计并提出一个用于遥感图像的语义分割模型,主要应用于高分辨遥感图像的场景理解等任务。
为实现上述技术目的,本发明所采用的技术方案为:一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,包括以下步骤:
步骤S1:遥感图像预处理,对数据集进行裁剪扩充;
步骤S2:对步骤S1预处理后的数据集进行划分,分为训练数据集、验证数据集和测试数据集;
步骤S3:构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型;
步骤S4:使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存;
步骤S5:加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像。
进一步的,步骤S1具体为:使用Vaihingen数据集,该数据集由33个非常精细的空间分辨率TOP图像块构成,平均大小为2494×2064像素,按照步长为1024像素对该数据集进行裁剪,得到每张为1024×1024像素的图像。
进一步的,步骤S2具体为:Vaihingen数据集由33个非常精细的空间分辨率TOP图像块构成,使用16个图像块进行训练,其余17个图像块进行验证和测试。
进一步的,步骤S3构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型,包括以下步骤:
S31:对于三通道的图像数据,首先经过一个3×3的卷积层扩展通道然后输入到MobileNetv2块中提取图像的浅层特征;
S32:对于提取到的浅层特征,利用具有高效的Transformer的MobileViTv2块来提
取语义特征,编码器内包含3个MobileViTv2块,每个块和MobileNetv2块交替串联在一起;
MobileViTv2块主要由两部分构成,局部表示部分和全局表示部分;对于输入的张量,其中,表示特征高度,表示特征宽度,表示特征的通道数;局部表示部分
利用的卷积层和的卷积层来生成,表示卷积后的通道数;卷
积对局部空间信息进行编码,而的卷积通过学习输入通道的线性组合将张量投影到
高维空间;将高维的张量输入到全局表示部分,将输入的展开为个不重叠的扁平补丁
块。这里的,是补丁块的数量,和分别是补丁
的高度和宽度,表示补丁块的通道数,对于每一个,通过Transformer来编码
补丁块间的关系来获得,公式表达为:;随后,折叠得到,然后
使用逐点卷积将投影到低的维度空间,通过串联操作与进行组合,然后,使用另一个卷积层来融合这些特征;将第一个MobileNetv2块和三个MobileViTv2块提取的共四
个阶段的特征作为编码器的输出输入到解码器中,即将输入到解码器
中;
S33:解码器具有四个阶段与编码器阶段对应,且每个阶段都有一个双线性插值操
作,来恢复特征分辨率,前三个阶段的每个阶段都由部分卷积Transformer模块构成并且都
采用高效的三明治设计,即高效的部分卷积Transformer模块夹在两个FFN层之间,具体来
说,就是应用了一个自注意力层,用于空间混合,该层夹在两个FFN层之间,计算可以
用公式表达为:,表示输入到-th块的全部特征,该模块通
过单个注意力层前后2个FFN层将转换为,在FFN层之前使用DW卷积作为令牌交互层,
通过引入局部结构信息的归纳偏置来增强模型的性能;
S34:注意力层采用部分卷积设计来减少多头注意力机制中的特征冗余问题,
它为每个注意力头提供完整特征的子集,将每个头计算注意力后的特征进行求和后与剩余
的特征进行串联,这样的操作显示地分解了多头注意力的计算,这种注意力可以表示为:表示计
算第个头对的自注意力,,,是头的总数,表示输入
到多头自注意力中计算注意力的部分特征,,和是将输入特征映射到不同子空
间的投影层,表示将每个头计算完注意力并进行求和后的特征,表示剩余的特征,表示将串联后的特征映射回输入维度的投影层,表示映射后的特征;
S35:为了使QKV层学习到特征更丰富的信息提高其容量,使用级联的方式来计算
每个头的注意力,将每个头的输出添加到后续头中,以逐步改进特征表示:其中表示第-th头计算的注意力和-th头计算
的注意力的和,它代替作为第个头的新输入特征来计算注意力;
S36:每个阶段输出的特征经过双线性插值操作恢复特征分辨率输入到下一个阶
段,将解码器每个阶段的特征通过加权求和操作与编码器中对应阶段的特征进行融合,加
权求和公式为:,其中,MF表示来自编码器的特征,PTM表示来自
解码器的特征,为模型根据特征对于分割精度的贡献程度自动学习的参数,在编码器的最
后阶段设计了一个特征细化模块来充分融合这两个阶段的特征,更全面地利用精确的语义
信息和空间细节,特征细化模块有两条路径,空间路径和通道路径;空间路径使用深度卷积
来产生空间注意力,通道注意力使用全局平均池化来产生通道注意力;之后两条路径产生
的特征使用加权求和操作来进一步融合获得注意力加权后的融合特征;对融合后的特征使
用深度卷积、BN操作、1×1卷积层并使用残差连接,最后经过ReLU激活层、1×1卷积层和双
线性插值将分辨率恢复到和输入图像同样的大小。
进一步的,步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存,具体为:
S41:构建用于模型参数优化更新的损失函数,模型选择以交叉熵Cross Entropy
Loss函数作为损失函数来更新参数,交叉熵函数表达式为:,其中,为训练样本的数量,为遥感图像
的分割标签,为模型预测的遥感图像分割图,表示第个类别,通过与真实标签计算损失
值来迭代更新模型参数;
S42:设置模型训练参数,其中,batchsize设置为8,初始学习率设置为0.0002,迭代80K轮,每10k轮保存一次模型权重;训练时,使用随机裁剪、随机旋转和随机翻转数据增强技术,使用随机裁剪数据增强技术的目的是将输入的遥感图像裁剪为512×512像素,使用随机旋转和随机翻转的目的是增加数据的多样性提高模型的泛化能力和鲁棒性;
S43:使用mIoU作为主要评价指标来客观评价模型的分割性能,mIoU的计算公式
为:其中,表示第个类别,表示真正例,模型预测为正例,
实际是正例;表示假正例,模型预测为正例,实际是反例;表示假反例,模型预测为反
例,实际是正例;表示真反例,模型预测为反例,实际是反例;使用AdamW优化算法进行模
型参数学习的优化;AdamW优化算法是在Adam的基础上引入了权重衰减Weight Decay的机
制;AdamW优化算法的参数有学习率learning rate:;一阶矩估计的指数衰减率decay
rate for the first moment: ;二阶矩估计的指数衰减率decay rate for the second
moment: ;权重衰减率weight decay rate: ;初始阶段,一阶矩估计为0,即m=0,二阶
矩估计为0,即v=0,时间步数为0,即;在每个训练步骤中,对于每个参数P的梯度g时间
步数:,一阶矩估计:;计算二阶矩估计:;如果权重衰减率不为0:;修正一阶矩估计的偏
差: ;修正二阶矩估计的偏差:;更新参数:,是一个接近0的常数,用于保证数值稳定性;循环上述步骤,迭代
模型直到完成训练次数,将最优模型权重保存。
进一步的,步骤S5,加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像,具体为:
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,并应用随机反转和随机旋转数据增强技术;
S52:加载步骤S4中的最优模型权重到步骤S3构建的模型中来分割遥感图像。
本发明设计并提出一个用于遥感图像的语义分割模型,主要应用于高分辨遥感图像的场景理解等任务。该方法模型沿用UNet的框架设计,主要分为编码器和解码器两部分。编码器中轻量级的CNN-Transformer混合网络MobileViTv2作为主干网,通过一系列的卷积、池化和非线性激活函数等操作,逐渐减少特征图的分辨率,同时提取出具有语义信息的高级特征。编码器的目标是在保留重要语义信息的同时,减少冗余和噪声,以便于后续的处理。解码器由部分卷积Transformer块构成。通过双线性插值上采样操作将编码器输出的低维特征映射恢复到原始图像的尺寸,同时利用部分卷积Transformer保留特征中丰富的语义信息,生成与输入图像相对应的每个像素的密集语义分割结果。
有益效果:本发明改进基于Transformer的遥感图像语义分割模型,可以高效地提取全局信息,更好地融合多尺度特征。相比于流行的基于Transformer的语义分割模型,本发明提出的模型拥有更少的参数量和计算量,大大减小资源占用,扩大了模型的实际应用场景。
附图说明
图1展示了本发明方法的整体流程图;
图2为本发明中多尺度聚合Transformer遥感图像语义分割模型的总体结构图;
图3为本发明中多尺度聚合Transformer遥感图像语义分割模型中的特征细化模块;
图4为本发明中多尺度聚合Transformer遥感图像语义分割模型中的部分卷积Transformer模块;
图5为本发明中多尺度聚合Transformer遥感图像语义分割模型中部分卷积Transformer模块中的部分卷积注意力;
图6为本发明中模型的训练流程图;
图7本发明方法与一些其他轻量级语义分割方法的在LoveDA数据集上的对比实验数据表;
图8为本专利方法与一些其他轻量级语义分割方法的在iSAID数据集上的对比实验数据表。
具体实施方式
下面结合具体实施例对本发明的技术方案做进一步说明,但不限于此。
实施例1
一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,整体流程图如图1所示,包括以下步骤:
步骤S1,对遥感图像进行预处理;
S11:以ISPRS Vaihingen 2D数据集为例,该数据集是一个用于计算机视觉和机器学习研究的公开数据集,通常用于遥感图像分割任务。该数据集以德国斯图加特市的一个地区命名,包含高分辨率的航拍图像,通常用于测试和评估图像分割算法的性能。数据集是由航空摄影捕捉而来通常包含多光谱图像,包括红外波段。这些图像具有很高的空间分辨率,可用于识别城市地区中的不同地物和目标。该数据集由33个非常精细的空间分辨率TOP图像块构成,平均大小为2494×2064像素。首先按照步长为1024像素对该数据集进行裁剪,得到每张为1024×1024像素的图像。
步骤S2,对步骤S1预处理后的遥感图像进行数据集的划分;
S21:由于Vaihingen数据集由33个非常精细的空间分辨率TOP图像块构成,使用16个图像块进行训练,其余17个图像块进行验证和测试。
步骤S3,构建基于深度学习的多尺度聚合的高效Transformer遥感图像语义分割方法,模型的整体结构图如图2所示;
S31:对于三通道的图像数据,首先经过一个的卷积层扩展通道然后输入到
MobileNetv2块中提取图像的浅层特征;
S32:对于提取到的浅层特征,利用具有高效的Transformer的MobileViTv2块来提
取语义特征,编码器内包含3个MobileViTv2块,每个块和MobileNetv2块交替串联在一起,
MobileViTv2块主要由两部分构成,局部表示部分和全局表示部分;对于输入的张量,其中,表示特征高度,表示特征宽度,表示特征的通道数;局部表示部分
利用的卷积层和的卷积层来生成,表示卷积后的通道数。卷
积对局部空间信息进行编码,而的卷积通过学习输入通道的线性组合将张量投影到
高维空间,将高维的张量输入到全局表示部分,将输入的展开为个不重叠的扁平补丁
块;这里的,是补丁块的数量,和分别是补丁
的高度和宽度,表示补丁块的通道数,对于每一个,通过Transformer来编码
补丁块间的关系来获得,公式表达为:,随后,折叠得到,然后
使用逐点卷积将投影到低的维度空间,通过串联操作与进行组合,然后,使用另一个卷积层来融合这些特征;将第一个MobileNetv2块和三个MobileViTv2块提取的共四
个阶段的特征作为编码器的输出输入到解码器中,即将输入到解码器
中;
S33:解码器具有四个阶段与编码器阶段对应,且每个阶段都有一个双线性插值操
作,来恢复特征分辨率,前三个阶段的每个阶段都由部分卷积Transformer模块构成并且都
采用高效的三明治设计,即高效的部分卷积Transformer模块夹在两个FFN层之间;具体来
说,就是应用了一个自注意力层,用于空间混合,该层夹在两个FFN层之间;模块结构
图如图4所示。计算可以用公式表达为:,表示输入到-th块
的全部特征,该模块通过单个注意力层前后2个FFN层将转换为;在FFN层之前使用DW
卷积作为令牌交互层,通过引入局部结构信息的归纳偏置来增强模型的性能;
S34:注意力层采用部分卷积设计来减少多头注意力机制中的特征冗余问题,
它为每个注意力头提供完整特征的子集,将每个头计算注意力后的特征进行求和后与剩余
的特征进行串联,这样的操作显示地分解了多头注意力的计算,这种注意力可以表示为:表示计
算第个头对的自注意力,,,是头的总数,表示输入
到多头自注意力中计算注意力的部分特征,,和是将输入特征映射到不同子空
间的投影层,表示将每个头计算完注意力并进行求和后的特征,表示剩余的特征,表示将串联后的特征映射回输入维度的投影层,表示映射后的特征;
S35:为了使QKV层学习到特征更丰富的信息提高其容量,使用级联的方式来计算
每个头的注意力,将每个头的输出添加到后续头中,以逐步改进特征表示:其中表示第-th头计算的注意力和-th头计算
的注意力的和。它代替作为第个头的新输入特征来计算注意力;
S36:每个阶段输出的特征经过双线性插值操作恢复特征分辨率输入到下一个阶
段,将解码器每个阶段的特征通过加权求和操作与编码器中对应阶段的特征进行融合,加
权求和公式为:其中,MF表示来自编码器的特征,PTM表示来自
解码器的特征,为模型根据特征对于分割精度的贡献程度自动学习的参数;由于解码器最
后阶段提取的特征保留了全局语义信息,缺少空间细节。而编码器第一阶段浅层特征由
MobileNetv2模块提取保留了丰富的空间细节,但缺乏语义信息,简单的使用求和操作来融
合这两个阶段的特征会导致分割精度的下降,因此设计了一个特征细化模块来充分融合这
两个阶段的特征,更全面地利用精确的语义信息和空间细节;特征细化模块结构图如图3所
示,特征细化模块有两条路径,空间路径和通道路径;空间路径使用深度卷积来产生空间注
意力,通道注意力使用全局平均池化来产生通道注意力;之后两条路径产生的特征使用加
权求和操作来进一步融合获得注意力加权后的融合特征,对融合后的特征使用深度卷积、
BN操作、1×1卷积层并使用残差连接,最后经过ReLU激活层、1×1卷积层和双线性插值将分
辨率恢复到和输入图像同样的大小。
步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并保存最优权重。模型训练测试流程如图6所示;
S41:构建用于模型参数优化更新的损失函数,模型选择以交叉熵(Cross Entropy
Loss)函数作为损失函数来更新参数,交叉熵函数表达式为:,其中,为训练样本的数量,为遥感图像
的分割标签,为模型预测的遥感图像分割图,表示第个类别。通过与真实标签计算损失
值来迭代更新模型参数;
S42:设置模型训练参数,其中,batchsize设置为8,初始学习率设置为0.0002,迭代80K轮,每10k轮保存一次模型权重;训练时,使用随机裁剪、随机旋转和随机翻转数据增强技术;使用随机裁剪数据增强技术的目的是将输入的遥感图像裁剪为512×512像素;
S43:使用mIoU作为主要评价指标来客观评价模型的分割性能;mIoU的计算公式
为:其中,表示第个类别,表示真正例,模型预测为正例,
实际是正例;表示假正例,模型预测为正例,实际是反例;表示假反例,模型预测为反
例,实际是正例;表示真反例,模型预测为反例,实际是反例;使用AdamW优化算法进行模
型参数学习的优化,AdamW优化算法是对Adam算法的一种改进,它在Adam的基础上引入了权
重衰减(Weight Decay)的机制,用于控制参数的正则化,以减少过拟合的风险;AdamW优化
算法的参数有学习率(learning rate):;一阶矩估计的指数衰减率(decay rate for the
first moment): ;二阶矩估计的指数衰减率(decay rate for the second moment): ;权重衰减率(weight decay rate):;初始阶段,一阶矩估计为0,即m=0,二阶矩估计为
0,即v=0,时间步数为0,即;在每个训练步骤中,对于每个参数P的梯度g时间步数:,一阶矩估计:;计算二阶矩估计:;如果权重衰减率不为0:;修正一阶矩估计的偏
差: ;修正二阶矩估计的偏差:;更新参数:,是一个接近0的常数,用于保证数值稳定性。循环上述步骤,迭代
模型直到完成训练次数,保存最优模型权重。
步骤S5,将步骤S2中的测试数据集输入到步骤S3构建的模型中,通过加载步骤S4中的最优模型权重来分割遥感图像;
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,并应用随机反转和随机旋转数据增强技术;
S52:加载S4中的最优模型权重到步骤S3构建的模型中来分割遥感图像。
为了评估本专利方法的有效性,在LoveDA数据集上进行了实验,图7为部分实验结果。LoveDA数据集包含城市和农村两个复杂场景的遥感图像,得益于有效的模型设计,本专利方法以有限的模型大小和计算成本很好的处理城市和农村两个场景,与最近的一些轻量级ViT模型相比,专利方法不仅取得了最好的mIoU(45.53%),而且在水域这个类别上取得了卓越的性能表现(60.12%),比CMT高13.16%,比LVT高2.18%。为了评估本专利方法的泛化性,在iSAID数据集上进行了进一步的实验,图8为部分实验结果,iSAID数据集作为遥感领域首个大规模分割数据集,共有15个类别;每幅图像都有大量的物体、大量的小物体和较大尺度的变化,这对轻量级的语义分割方法是一个挑战,实验结果可以看出,对比最近一些轻量级ViT模型,本专利方法取得了最好的mIoU(38.64%)和mAcc(45.17%)。
需要说明的是,上述实施例仅仅是实现本发明的优选方式的部分实施例,而非全部实施例。显然,基于本发明的上述实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
Claims (6)
1.一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,包括以下步骤:
步骤S1:遥感图像预处理,对数据集进行裁剪扩充;
步骤S2:对步骤S1预处理后的数据集进行划分,分为训练数据集、验证数据集和测试数据集;
步骤S3:构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型;
步骤S4:使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存;
步骤S5:加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像。
2.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S1具体为:使用Vaihingen数据集,该数据集由33个精细的空间分辨率TOP图像块构成,平均大小为2494×2064像素,按照步长为1024像素对该数据集进行裁剪,得到每张为1024×1024像素的图像。
3.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S2具体为:将步骤S1处理得到的Vaihingen数据集的33个精细的空间分辨率TOP图像块分为两部分,其中,使用16个图像块进行训练,其余17个图像块进行验证和测试。
4.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S3构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型,包括以下步骤:
S31:对于三通道的图像数据,首先经过一个3×3的卷积层扩展通道然后输入到MobileNetv2块中提取图像的浅层特征;
S32:对于提取到的浅层特征,利用具有高效的Transformer的MobileViTv2块来提取语义特征,编码器内包含3个MobileViTv2块,每个块和MobileNetv2块交替串联在一起;MobileViTv2块主要由两部分构成,局部表示部分和全局表示部分;对于输入的张量,其中,/>表示特征高度,/>表示特征宽度,/>表示特征的通道数;局部表示部分利用/>的卷积层和/>的卷积层来生成/>,/>表示卷积后的通道数;/>卷积对局部空间信息进行编码,而/>的卷积通过学习输入通道的线性组合将张量投影到高维空间;将高维的张量输入到全局表示部分,将输入的/>展开为/>个不重叠的扁平补丁块/>;这里的/>,/>是补丁块的数量,/>和/>分别是补丁的高度和宽度,/>表示补丁块的通道数,对于每一个/>,通过Transformer来编码补丁块间的关系来获得/>,公式表达为:;随后,折叠/>得到/>,然后使用逐点卷积将/>投影到低的/>维度空间,通过串联操作与/>进行组合,然后,使用另一个卷积层来融合这些特征;将第一个MobileNetv2块和三个MobileViTv2块提取的共四个阶段的特征作为编码器的输出输入到解码器中,即将/>输入到解码器中;
S33:解码器具有四个阶段与编码器阶段对应,且每个阶段都有一个双线性插值操作,来恢复特征分辨率,前三个阶段的每个阶段都由部分卷积Transformer模块构成并且都采用高效的三明治设计,即高效的部分卷积Transformer模块夹在两个FFN层之间,具体来说,就是应用了一个自注意力层,用于空间混合,该层夹在两个FFN层/>之间,计算可以用公式表达为:/>,/>表示输入到/>-th块的全部特征,该模块通过单个注意力层前后2个FFN层将/>转换为/>,在FFN层之前使用DW卷积作为令牌交互层,通过引入局部结构信息的归纳偏置来增强模型的性能;
S34:注意力层为每个注意力头提供完整特征的子集,将每个头计算注意力后的特征进行求和后与剩余的特征进行串联,这种注意力可以表示为:表示计算第/>个头对/>的自注意力,/>,/>,/>是头的总数,/>表示输入到多头自注意力中计算注意力的部分特征,/>,/>和/>是将输入特征映射到不同子空间的投影层,/>表示将每个头计算完注意力并进行求和后的特征,/>表示剩余的特征,表示将串联后的特征映射回输入维度的投影层,/>表示映射后的特征;
S35:为了使QKV层学习到特征更丰富的信息提高其容量,使用级联的方式来计算每个头的注意力,将每个头的输出添加到后续头中,以逐步改进特征表示:其中/>表示第/>-th头计算的注意力/>和/>-th头计算的注意力/>的和,它代替/>作为第/>个头的新输入特征来计算注意力;
S36:每个阶段输出的特征经过双线性插值操作恢复特征分辨率输入到下一个阶段,将解码器每个阶段的特征通过加权求和操作与编码器中对应阶段的特征进行融合,加权求和公式为:,其中,MF表示来自编码器的特征,PTM表示来自解码器的特征,/>为模型根据特征对于分割精度的贡献程度自动学习的参数,在编码器的最后阶段使用特征细化模块来充分融合这两个阶段的特征;特征细化模块有两条路径,空间路径和通道路径;空间路径使用深度卷积来产生空间注意力,通道注意力使用全局平均池化来产生通道注意力;之后两条路径产生的特征使用加权求和操作来进一步融合获得注意力加权后的融合特征;对融合后的特征使用深度卷积、BN操作、1×1卷积层并使用残差连接,最后经过ReLU激活层、1×1卷积层和双线性插值将分辨率恢复到和输入图像同样的大小。
5.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存,具体为:
S41:构建用于模型参数优化更新的损失函数,模型选择以交叉熵Cross Entropy Loss函数作为损失函数来更新参数,交叉熵函数表达式为:,其中,/>为训练样本的数量,/>为遥感图像的分割标签,/>为模型预测的遥感图像分割图,/>表示第/>个类别,通过与真实标签计算损失值来迭代更新模型参数;
S42:设置模型训练参数,其中,batchsize设置为8,初始学习率设置为0.0002,迭代80K轮,每10k轮保存一次模型权重;训练时,使用随机裁剪、随机旋转和随机翻转数据增强技术;
S43:使用mIoU作为主要评价指标来客观评价模型的分割性能,mIoU的计算公式为:其中,/>表示第/>个类别,/>表示真正例,模型预测为正例,实际是正例;/>表示假正例,模型预测为正例,实际是反例;/>表示假反例,模型预测为反例,实际是正例;/>表示真反例,模型预测为反例,实际是反例;使用AdamW优化算法进行模型参数学习的优化;AdamW优化算法是在Adam的基础上引入了权重衰减Weight Decay的机制;AdamW优化算法的参数有学习率learning rate:/>;一阶矩估计的指数衰减率decay ratefor the first moment: />;二阶矩估计的指数衰减率decay rate for the secondmoment: />;权重衰减率weight decay rate: />;初始阶段,一阶矩估计为0,即m=0,二阶矩估计为0,即v=0,时间步数为0,即/>;在每个训练步骤中,对于每个参数P的梯度g时间步数:/>,一阶矩估计:/>;计算二阶矩估计:;如果权重衰减率/>不为0:/>;修正一阶矩估计的偏差: />;修正二阶矩估计的偏差:/>;更新参数:,/>是一个接近0的常数,用于保证数值稳定性;循环上述步骤,迭代模型直到完成训练次数,将最优模型权重保存。
6.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S5,加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像,具体为:
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,并应用随机反转和随机旋转数据增强技术;
S52:加载步骤S4中的最优模型权重到步骤S3构建的模型中来分割遥感图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049995.4A CN117576402B (zh) | 2024-01-15 | 2024-01-15 | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049995.4A CN117576402B (zh) | 2024-01-15 | 2024-01-15 | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576402A true CN117576402A (zh) | 2024-02-20 |
CN117576402B CN117576402B (zh) | 2024-03-26 |
Family
ID=89884698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410049995.4A Active CN117576402B (zh) | 2024-01-15 | 2024-01-15 | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576402B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749752A (zh) * | 2021-01-15 | 2021-05-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于深度Transformer的高光谱影像分类方法 |
CN115600483A (zh) * | 2022-07-04 | 2023-01-13 | 临沂大学(Cn) | 一种基于深度森林的降水反演方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116091929A (zh) * | 2023-01-29 | 2023-05-09 | 哈尔滨工程大学 | 结合Unet和Transformer的遥感图像语义分割方法 |
CN116704291A (zh) * | 2023-06-19 | 2023-09-05 | 北京百度网讯科技有限公司 | 分片并行的模型训练方法、装置、设备及存储介质 |
CN117078539A (zh) * | 2023-07-20 | 2023-11-17 | 北京交通大学 | 基于CNN-Transformer的局部全局交互式图像恢复方法 |
US20230409892A1 (en) * | 2023-08-04 | 2023-12-21 | Deepx Co., Ltd. | Neural processing unit being operated based on plural clock signals having multi-phases |
CN117391958A (zh) * | 2023-12-07 | 2024-01-12 | 临沂大学 | 一种基于多路径聚合Transformer的卫星云图超分辨率重建方法 |
-
2024
- 2024-01-15 CN CN202410049995.4A patent/CN117576402B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749752A (zh) * | 2021-01-15 | 2021-05-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于深度Transformer的高光谱影像分类方法 |
CN115600483A (zh) * | 2022-07-04 | 2023-01-13 | 临沂大学(Cn) | 一种基于深度森林的降水反演方法 |
CN116091929A (zh) * | 2023-01-29 | 2023-05-09 | 哈尔滨工程大学 | 结合Unet和Transformer的遥感图像语义分割方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116704291A (zh) * | 2023-06-19 | 2023-09-05 | 北京百度网讯科技有限公司 | 分片并行的模型训练方法、装置、设备及存储介质 |
CN117078539A (zh) * | 2023-07-20 | 2023-11-17 | 北京交通大学 | 基于CNN-Transformer的局部全局交互式图像恢复方法 |
US20230409892A1 (en) * | 2023-08-04 | 2023-12-21 | Deepx Co., Ltd. | Neural processing unit being operated based on plural clock signals having multi-phases |
CN117391958A (zh) * | 2023-12-07 | 2024-01-12 | 临沂大学 | 一种基于多路径聚合Transformer的卫星云图超分辨率重建方法 |
Non-Patent Citations (2)
Title |
---|
LUN-QIAN WANG等: "METAFOEMER SUPER-RESOLUTION NETWORK WITH RECURSIVE GATED ATTENTION FOR THE METEOROLOGICAL SATELLITE CLOUD IMAGE", 《PROCEEDINGS OF THE 2023 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》, 11 July 2023 (2023-07-11), pages 528 - 535, XP034478107, DOI: 10.1109/ICMLC58545.2023.10327984 * |
汤泊川 等: "结合CNN和Transformer的遥感图像土地覆盖分类方法", 《微电子学与计算机》, 11 January 2024 (2024-01-11), pages 1 - 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576402B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378844B (zh) | 基于循环多尺度生成对抗网络的图像盲去运动模糊方法 | |
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112016507B (zh) | 基于超分辨率的车辆检测方法、装置、设备及存储介质 | |
CN110570353A (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN110211035B (zh) | 融合互信息的深度神经网络的图像超分辨率方法 | |
CN111931787A (zh) | 一种基于特征聚合的rgbd显著性检测方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN110660020A (zh) | 一种基于融合互信息的对抗生成网络的图像超分辨率方法 | |
CN109447897B (zh) | 一种真实场景图像合成方法及系统 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN112329808A (zh) | 一种Deeplab语义分割算法的优化方法及系统 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN112766099B (zh) | 一种从局部到全局上下文信息提取的高光谱影像分类方法 | |
CN114821074B (zh) | 机载liDAR点云语义分割方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |