CN114937202A - 一种双流Swin Transformer遥感场景分类方法 - Google Patents
一种双流Swin Transformer遥感场景分类方法 Download PDFInfo
- Publication number
- CN114937202A CN114937202A CN202210372827.XA CN202210372827A CN114937202A CN 114937202 A CN114937202 A CN 114937202A CN 202210372827 A CN202210372827 A CN 202210372827A CN 114937202 A CN114937202 A CN 114937202A
- Authority
- CN
- China
- Prior art keywords
- image
- edge
- swin
- remote sensing
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供的是一种双流Swin Transformer的遥感场景分类方法,可以显著提高遥感图像的场景分类精度。提出的方法包括边缘合成图像的生成、原始特征和边缘特征的提取、特征融合三个步骤。边缘合成图像的生成是通过可导的Sobel算子提取边缘图像后与,原始图像的灰度图在通道维度连接;原始特征和边缘特征是通过两个结构相同的Swin Transformer,分别提取原始特征和边缘特征;特征融合是将两个特征串联在一块后,通过全连接,将特征融合在一起,并通过重新设计的损失函数形式,优化网络参数。
Description
技术领域
本发明涉及遥感图像场景分类方法,特别是涉及一种双流Swin Transformer遥感场景分类方法,属于遥感信息处理技术领域。
背景技术
遥感图像是帮助我们进行地球观测的宝贵资源。随着地球观测技术的进步,高分辨率遥感图像的数量急剧增加。因此,理解复杂、海量的遥感图像成为遥感场景分类成为一项重要任务。遥感场景分类技术已经广泛应用于城市规划、地理图像检索、环境检测、植被制图以及地球空间对象检测等众多领域。
在近几十年,许多基于传统手工特征或者深度学习特征的的场景分类方法被提出。深度学习方法依旧是目前主流的场景分类方法。深度学习方法包括深度信念神经网络(DBNN)、卷积神经网络(CNN)以及视觉Transformer。Cheng等人在遥感场景分类任务上首先使用了CNN进行特征提取。Zhou等人通过预训练的CNN完成了端到端的遥感分类任务。
最近,Transformer在自然语言处理(NLP)领域取得了令人瞩目的成就,同时也被引入了图像分类领域。Dosoviskiy等人提出的Vision Transformer(ViT)在图像分类领域取得了优秀成绩。Transformer最近也被引入到了遥感场景分类中,大部分的工作都是基于经典的ViT模型。例如,Bazi等人将预处理的ViT模型与数据增强和网络修建相结合,提高了ViT在遥感场景分类的性能。Deng等人提出了用于场景分类的联合模型CTNet,其中ViT用于提取图像语义特征,CNN用于提取局部结构特征。Zhang等人提出的TRSNet优化了残差网络,增加了Transformer结构,实现了Transformer和CNN更好的交互性,提高了分类性能。
虽然ViT是目前占据主导地位的Transformer解决方案,但是它仍有很多缺点。例如,它的特征图具有单一不变的分辨率,并且自注意力计算复杂度达到了二次方。另外,ViT过度关注了长距离的语义信息,而忽略了局部的结构信息。Liu等人提出的Shift windows(Swin)Transformer通过引入CNN的一些特性并且通过合并图像块来构建分层特征图,解决了以上问题。并且Swin Trannsformer具有线性的自注意力计算复杂度。因此,在本文中,我们选用了Swin Transformer作为框架的骨干网络。
另外,上述方法,都是针对自然图像设计的网络,没有充分考虑遥感图像的特点。遥感图像通常尺寸大、分辨率高,并且覆盖大量地面物体。更为重要的是,由于遥感场景图像是由随机分布的地面物体组合而成,因此更难以有效识别。边缘曲线这种特征,对于遥感场景分类具有极大的帮助。因此,为了有效地提取提取边缘信息,我们提出了一种可微边缘Sobel算子模块。与直接使用Sobel算子进行边缘提取的其他方法不用,我们使用了可微分的Sobel算子来提取边缘。
在此背景下,我们提出了一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法,通过融合原始特征和边缘特征,提高了遥感场景分类的精度。创新性构建了可导的边缘Sobel算子模块,能够生成具有丰富边缘信息的图像。
发明内容
本发明目的在于提高遥感图像的场景分类精度,提出了一种具有Sobel算子的双流Swin Transformer场景分类方法(表示为TSTNet)。
本发明的第一个目的是提出一种具有Sobel算子的双流Swin Transformer场景分类方法,包括可导的Sobel算子、原始特征提取流、边缘特征提取流以及特征融合四个模块组成。四个模块的技术细节如下:
可导的Sobel算子模块:首先该模块基于传统的边缘检测算法,首先将原始遥感图像T转化为灰度图A,然后将Sobel算子放入3×3卷积核中,通过两个卷积核提取图像在横轴和纵轴上的边缘图像G x 和G y 。另外,卷积核具有梯度,可以进行参数更新。这样的操作实现了Sobel算子的自适应学习。同时为了补充内容信息,将边缘图像G x 、G y 和灰度图A在通道维度连接起来,形成一个三通道图像T(i)。T(i)既有边缘强调信息,也有内容信息,后续输入到边缘流进行特征提取。
边缘特征提取流:边缘特征流由Swin Transformer作为骨干网络,用于提取可导Sobel算子模块生成图像的特征。这些特征主要包含合成图像的边缘强调信息。特征提取首先通过线性映射,将合成的边缘图像构建划分成多个图像块,输入到Swin Transformer中。Swin Transformer通过窗口划分机制,再将图像块划分组合成窗口,在窗口内进行自注意力机制的计算,又通过跨窗口机制,增加了图像块之间的全局交流。因此,各个图像块之间互相融合了其他图像块的关联信息。通过多层分辨率机制,逐层过滤特征。最终生成高质量的边缘特征用于后续的特征融合。
原始特征提取流:原始特征提取流 同样使用了Swin Transformer作为骨干网络,用于提取原始遥感影像的特征。提取过程与边缘特征流相同。提取到的原始特征最终与边缘特征相融合,以便于最终进行分类与预测。
特征融合模块:该模块由特征融合和损失函数两部分组成。F 1 和F 2 分别是提取的原始特征和边缘特征。它们分别是维度为d的向量。通过串联的形式,将两个向量连接在一起,形成向量F,然后通过全连接将F映射到F’,最终F’ϵR n (其中n是任务的分类数目)。两流的特征通过这样的方式进行了融合。同时,为了强调原始特征提取流的重要性,设计了辅助损失函数去扩大原始流的反向传播。通过一个权重系数λ来平衡两个交叉熵损失函数。最终,融合完毕的特征送入softmax函数进行最终的分类预测。
附图说明
图1.一种双流SwinTransformer遥感分类方法的整体结构图(前部分)。
图2.一种双流SwinTransformer遥感分类方法的整体结构图(后部分)。
图3.可导Sobel算子模块。
图4.融合模块和损失函数。
图5.Swin Transformer块的内部结构。
图6.不同数据集的不同训练比例下,对本发明进行了消融实验,使用了AID数据集。
图7.对本发明的网络注意力图进行可视化,对比TSTNet与Swin Transformer的注意力图。
具体实施方式
下面结合附图举例对本发明做更详细地描述。
本发明提出方法包括自适应边缘图像生成、原始特征和边缘特征提取、特征融合三个步骤。具体分析步骤如下:
步骤 S1:自适应边缘图像生成
步骤 S1.1:原始遥感图像T输入到可导Sobel算子模块,如图2所示。
步骤 S1.2:首先将图像转化为灰度图A。
步骤 S1.3:两个常规的Sobel算子在横向和纵向方向的边缘检测图像为:
其中,A代表着原始遥感图像转化的灰度图,两个矩阵分别是在横向和纵向的算子,G x 代表图像在横向的边缘检测图像,G y 代表图像在纵轴的边缘检测图像。
步骤 S1.4:算法在我们方法中的具体实现是通过卷积操作完成。在图2中,两个3×3卷积核的滤波器分别使用Sobel横向算子和纵向算子,卷积核具有梯度,能够进行参数更新。
步骤 S1.5:最终,将G x 和G y 和灰度图A通过在通道维度连接在一起,形成一张三通道的边缘合成遥感图像T(i)。
步骤 S2:原始特征和边缘特征提取;
步骤 S2.1:将原始图像特征T和边缘合成图像T(i)划分为众多图像块,输入到Swin Transformer。如图1所示,上方为原始遥感图像输入到Swin Transformer进行原始特征提取,下方为边缘合成图像输入到Swin Transformer进行边缘特征的提取。
步骤 S2.2:Swin Transformer的特征提取过程;
Swin Transformer的具体结构如图7所示,遥感图像尺寸为H×W×C,其中H代表图像的高,W代表图像的宽,C代表图像的通道数。通过线性映射转化为图像块后,图像转化为N ×C大小的特征,其中N代表图像块的数目,C代表每个图像块的维度。Swin Transformer通过具有窗口机制的自注意力机制进行特征之间的关联计算。连续两个Transformer块的结构如图4所示。具体的运算过程如下:
其中,W-MSA是常规的窗口多头自注意力计算,MLP是多层感知机,SW-MSA是滑动窗
口多头自注意力机制。和z l 分别是(S)W-MAS和MLP在第l个block的输出。每个输入都需要
提前经过层归一化(LN)。
步骤 S3:特征融合;
图3展示了特征融合模块和损失函数的细节。F 1 和F 2 分别是提取到的原始特征和边缘特征,都是维度为d的向量。通过以下方式进行融合:
其中,Concat代表了串联连接,FC代表全连接。通过全连接,将边缘特征和原始特征进行了有效的融合。生成的特征F’融合了原始特征和边缘特征。F’ϵR n (其中n是任务的分类数目)。
为了强调原始流的重要性,在最终的损失函数中,加入了辅助损失函数。损失函数形式如下:
其中,L F 是融合特征F’的交叉熵损失函数。L F1 是输出特征F 1 的交叉熵损失函数。原始流在最终的分类任务中具有重要作用,因此我们引入权重系数λ(λϵ[0,1])来平衡两个损失函数。经过实验证明,λ=0.8能够带来更好的性能。
为了说明本发明的有效性,进行如下实验论证。实验数据来自航空图像数据集(AID)的遥感图像,此遥感图像数据集具有较大的图像尺寸和丰富的场景覆盖。这些图像来自不同国家和地区,在不同时间、不同季节收集,覆盖了30个场景。每幅图像的尺寸为600600像素点。
本发明的实验环境:
所有实验均采用了Pytorch1.8深度学习框架,模型在英伟达 RTX 3090 (24GB)GPU上进行训练。Swin Transformer选用了基本类型(Swin-B)。
第一组实验重点研究本发明的各个组成部分对整体分类精度的影响,以证明本发明的有效性。实验结果如图5所示。
Swin-B对比ViT-B:可以观察到,Swin-B的整体分类精度(OA)高于ViT-B。具体来说,在不同训练率的AID数据集上,基于Swin-B的分支比基于ViT-B的分支高了3.2%和1.6%。这一观察说明,Swin-B始终优于ViT-B,因此我们使用了Swin-B作为骨干网络。
可导与不可导Sobel算子对比:具有可导Sobel算子的边缘流的精度始终高于不可导Sobel算子的边缘流。具体来说,在AID数据集上,具有可导Sobel算子的边缘流比具有不可导Sobel算子的边缘流高了0.6%和0.4%。这说明本发明的可导Sobel算子模块是有效的,并且能够提取更好的边缘特征。
权重损失函数和原始损失函数对比:在AID数据集上,本发明TSTNet与TSTNet-add相对比,性能上有了进一步提升。具体来说,TSTNet相比TSTNet-add,在不同训练率下,分别提升了0.3%和0.1%。
有边缘流和无边缘流对比:在两种训练比率的AID数据集上,本发明TSTNet相比较原始流和边缘流,整体分类精度提升了1.8%和1.3%。这说明具有可导Sobel算子的辅助边缘流能够帮助网络实现更好的性能。
第二组实验重点研究本发明对网络注意力的图像。如图6所示,对于机场场景,本发明TSTNet能够更好的将注意力集中到飞机身上,而忽略机场一些干扰因素。总之,本发明能够更加关注场景对象,忽略干扰因素。
第三组实验重点研究本发明与一些先进方法的整体分类精度(OA)对比。在实验中,通过使用AID数据集来进行对比。使用了20%训练样本和50%训练样本,与目前最先进的方法进行了对比。为减少随机因素带来的误差,所有实验均重复进行10次,取平均值和标准差。使用了整体分类精度OA作为衡量标准。结果如表I所示。可以观察到不管是基于CNN的方法还是基于ViT的方法,本发明TSTNet的精度均超过了目前最先进的方法。具体来说,相比较基于Inception-v3的Inception-v3-CapsNet,TSTNet提高了3.41%和2.47%。TSTNet比基于CNN的KFBNet(DenseNet-121)精度提高了1.7%和1.05%。TSTNet相比较基于ViT的TRS,精度分别提高了1.66%和0.22%。综上所述,在只有少量训练数据的情况下,我们的发明依然优于其他基线模型。这表明了我们的发明具有稳健性和有效性。
Claims (3)
1.一种双流Swin Transformer的遥感场景分类方法,其特征在于,包含以下步骤:
S1:处理原始遥感影像X∈R H×W×C ,其中H、W、C分别是图像的高度、宽度和通道数,将图像进行灰度处理,生成单通道灰度图G;
S2:通过可导的Sobel算子,将生成横轴和纵轴的边缘图像G x 和G y ,与灰度图G在通道维度连接,形成一张三通道的边缘图像T(i)=Concat(G, G x , G y ),其中Concat代表串联连接;
S3:将原始遥感图像T和边缘图像T(i)划分为图像块,其中n指的一张图像的图像块数目,
T={x 1 , x 2 … x n },
T(i)={x 1 , x 2 … x n };
S4:将原始图像块和边缘图像块分别送入两流的Swin Transformer去分别提取特征,两流的Transformer均具有相同结构,并且它们之间的参数各自单独学习,SwinTransformer对边缘图像提取的特征较为特殊,既含有原始的影像信息,又含有边缘的强调信息;
S5:经过Swin Transformer提取的原始特征和边缘特征分别为F 1 和F 2 ,经过以下形式进行融合:
F’=FC(Concat(F 1 ,F 2 ))
其中Concat代表串联连接,FC代表全连接,F’代表融合特征;
S6:将融合特征F’送入softmax分类器,进行最终的预测。
2.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法,其特征在于,所述步骤S2采用了可导的Sobel算子,将算子置入卷积核中,通过卷积操作完成边缘提取,卷积核能够在网络的反向传播过程中更新参数,以实现Sobel算子值的自适应学习。
3.根据权利要求1所述的一种具有可导Sobel算子的双流Swin Transformer遥感场景分类方法,其特征在于,所述步骤S5融合特征的同时,也对损失函数进行了重新设计,引入了辅助损失函数,通过权重系数λ控制两个损失函数的平衡,公式为:
L=λL
F
+(1-λ)L
F1
其中L F 和L F1 分别是特征F’和F 1 的交叉熵损失函数,L是最终的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210372827.XA CN114937202A (zh) | 2022-04-11 | 2022-04-11 | 一种双流Swin Transformer遥感场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210372827.XA CN114937202A (zh) | 2022-04-11 | 2022-04-11 | 一种双流Swin Transformer遥感场景分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114937202A true CN114937202A (zh) | 2022-08-23 |
Family
ID=82862634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210372827.XA Pending CN114937202A (zh) | 2022-04-11 | 2022-04-11 | 一种双流Swin Transformer遥感场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937202A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661507A (zh) * | 2022-09-22 | 2023-01-31 | 北京建筑大学 | 一种基于优化的Swin Transformer网络的建筑垃圾分类方法及装置 |
CN116109966A (zh) * | 2022-12-19 | 2023-05-12 | 中国科学院空天信息创新研究院 | 一种面向遥感场景的视频大模型构建方法 |
CN116524258A (zh) * | 2023-04-25 | 2023-08-01 | 云南师范大学 | 一种基于多标签分类的滑坡检测方法和系统 |
-
2022
- 2022-04-11 CN CN202210372827.XA patent/CN114937202A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661507A (zh) * | 2022-09-22 | 2023-01-31 | 北京建筑大学 | 一种基于优化的Swin Transformer网络的建筑垃圾分类方法及装置 |
CN116109966A (zh) * | 2022-12-19 | 2023-05-12 | 中国科学院空天信息创新研究院 | 一种面向遥感场景的视频大模型构建方法 |
CN116109966B (zh) * | 2022-12-19 | 2023-06-27 | 中国科学院空天信息创新研究院 | 一种面向遥感场景的视频大模型构建方法 |
CN116524258A (zh) * | 2023-04-25 | 2023-08-01 | 云南师范大学 | 一种基于多标签分类的滑坡检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN110555446B (zh) | 基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法 | |
CN112836773B (zh) | 一种基于全局注意力残差网络的高光谱图像分类方法 | |
CN110728224B (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
CN114937202A (zh) | 一种双流Swin Transformer遥感场景分类方法 | |
CN110728192B (zh) | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN112347888B (zh) | 基于双向特征迭代融合的遥感图像场景分类方法 | |
CN113361485B (zh) | 基于光谱空间注意力融合和可变形卷积残差网络的高光谱图像分类方法 | |
CN108062575A (zh) | 一种高相似度图像识别与分类方法 | |
CN113920043A (zh) | 基于残差通道注意力机制的双流遥感图像融合方法 | |
CN115272078A (zh) | 基于多尺度空-谱特征学习的高光谱图像超分辨率重建方法 | |
CN110930315A (zh) | 基于双通路卷积网络和层次clstm的多光谱图像全色锐化方法 | |
CN114155371A (zh) | 基于通道注意力与金字塔卷积融合的语义分割方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN116843975A (zh) | 结合空间金字塔注意力机制的高光谱图像分类方法 | |
CN115019178A (zh) | 一种基于大核卷积注意力的高光谱影像分类方法 | |
Patil et al. | Semantic segmentation of satellite images using modified U-Net | |
CN112529828B (zh) | 参考数据非敏感的遥感影像时空融合模型构建方法 | |
Yu et al. | GPF-Net: Graph-polarized fusion network for hyperspectral image classification | |
CN105719323A (zh) | 一种基于优化图谱理论的高光谱降维方法 | |
CN117034778A (zh) | 基于Hypergraph-Transformer结构反演地上生物量的方法 | |
SUN et al. | Hyperspectral Image Classification Based on A Multi‐Scale Weighted Kernel Network | |
CN115546474A (zh) | 一种基于学习者集成策略的少样本语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |