CN116228789A - 一种基于DeepLabv3+网络的遥感图像分割方法 - Google Patents
一种基于DeepLabv3+网络的遥感图像分割方法 Download PDFInfo
- Publication number
- CN116228789A CN116228789A CN202211647777.8A CN202211647777A CN116228789A CN 116228789 A CN116228789 A CN 116228789A CN 202211647777 A CN202211647777 A CN 202211647777A CN 116228789 A CN116228789 A CN 116228789A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sensing image
- deep
- labv3
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003709 image segmentation Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000013135 deep learning Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000011084 recovery Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于DeepLabv3+网络的遥感图像分割方法,包括:从卫星影像的AI分类与识别比赛中下载出遥感图像数据集;对下载的遥感图像进行预处理;在DeepLabv3+网络结构的基础上,添加注意力模块,所述注意力模块包括位置注意力模块和通道注意力模块;在PyTorch深度学习框架中设置训练参数;将得到的数据集输入到设计好的DeepLabv3+深度学习网络结构中,并在深度学习框架中进行训练,得到最终的改进DeepLabv3+网络结构模型;将待分割遥感图像输入到最终的网络结构模型中,得到遥感图像分割结果。本发明的分割精度更高,对于多尺度目标和边缘特征提取效果明显。
Description
技术领域
本发明涉及遥感图像处理技术领域,尤其涉及一种基于DeepLabv3+网络的遥感图像分割方法。
背景技术
图像分割是图像处理研究领域中的一个热门分支,在灾害预警、土地利用分析等很多方面都得到重要应用。在遥感图像分割问题上,传统的方法是运用机器学习算法,但由于遥感图像存在高分辨率、目标物体多尺度等问题,分割效果并不理想。随着计算机图形处理单元的快速发展和计算能力的飞速提高,深度学习开始广泛应用于图像处理领域。在深度学习中,常用于处理图像的是卷积神经网络,它可以在训练数据时自动提取特征,在这个过程中不断优化参数,取得更高的分割精度。目前来说,对于遥感图像分割问题,基于深度学习的方法已经成为研究的主流方向。
在深度学习中,常用于遥感图像分割的是卷积神经网络。2015年提出的全卷积神经网络(FCN),是首个针对图像分割的神经网络,它取消了传统神经网络的全连接层,保留了图像特征,在上采样阶段采用反卷积操作,借此来恢复图像信息(参考文献1:Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:3431-3440.),但是得到的结果不够精细,对于图像中的细节处理也不敏感。在FCN之后,后续还出现了U-Net,SegNet等网络模型,这两种网络模型都采用了编码器-解码器结构,编码器负责提取特征,在解码器恢复特征图时,能将低级特征与高级特征进行融合,在图像中更好的精细化物体的边缘特征(参考文献2:Ronneberger O,FischerP,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241.参考文献3:Badrinarayanan V,Kendall A,Cipolla R.Segnet:A deep convolutional encoder-decoder architecture for imagesegmentation[J].IEEE transactions on pattern analysis and machineintelligence,2017,39(12):2481-2495.),但是U-Net主要是在医学图像上取得较好效果,SegNet则主要改进了FCN内存占用的问题,平衡了内存占用与精度的关系。DeepLab系列网络加入了空洞卷积来扩大感受野,并提出空洞卷积金字塔池化ASPP层,采用不同的空洞率来提取图像的多尺度特征,提高图像分割的精度(参考文献4:Chen LC,Zhu Y,PapandreouG,et al.Encoder-decoder with atrous separable convolution for semantic imagesegmentation[C]//Proceedings of the European conference on computer vision(ECCV).2018:801-818.),但是DeepLab系列的网络结构存在边缘目标分割不精确、拟合速度慢等问题。注意力机制在网络训练过程中,能够根据特征信息不同,自适应的分配不同的权重值,利用全局上下文关系,提高目标特征的权重值,得到更好的分割效果(参考文献5:Fu J,Liu J,Tian H,et al.Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:3146-3154.)。
发明内容
在遥感图像分割中,物体存在多尺度问题,同一类物体会有不同的尺度。在DeepLabv3+网络结构中,利用不同扩张率的空洞卷积能更好地实现多尺度目标的分割,但过大的扩张率无法对图像边缘特征进行准确提取。而大尺度目标在进行特征提取时,由于它们之间存在的特征联系不能被准确地模拟出来,所以容易造成空洞现象。为了解决此问题,本发明提供了一种基于DeepLabv3+网络和注意力机制的方法,在使用DeepLabv3+网络模型进行训练时,在网络结构中加入注意力机制,分别是位置注意力模块和通道注意力模块,通过上述两个注意力模块,能够联系全局上下文信息,为目标特征赋予更高的权重值,在上采样阶段能更好的恢复边缘特征。
为了实现上述目的,本发明采用以下技术方案:
一种基于DeepLabv3+网络的遥感图像分割方法,包括:
步骤1,从卫星影像的AI分类与识别比赛中下载出遥感图像数据集,所述遥感图像包含原始图像以及对应的标签图;
步骤2,对下载的遥感图像进行预处理;
步骤3,对DeepLabv3+网络结构进行改进:在DeepLabv3+网络结构的基础上,添加注意力模块,所述注意力模块包括位置注意力模块和通道注意力模块;
步骤4,使用PyCharm程序设计软件,在PyTorch深度学习框架中设置训练参数;
步骤5,将步骤2处理后得到的数据集输入到步骤3设计好的DeepLabv3+深度学习网络结构中,并在步骤4中设置好训练参数的PyTorch深度学习框架中进行训练,得到最终的改进DeepLabv3+网络结构模型;
步骤6,将待分割遥感图像输入到最终的改进DeepLabv3+网络结构模型中,得到遥感图像分割结果。
进一步地,所述步骤2包括:
步骤2.1:将下载的原遥感图像进行数据增强,可以对数据随机取样,裁剪成适合输入到网络中的小图片;
步骤2.2:为了增强数据的复杂性,在取样后可以对图片进行翻转、加入噪声、旋转、沿y轴翻转90度和180度等方法,来防止过拟合现象,提高数据的泛用性。
进一步地,所述步骤3包括:
步骤3.1:将预处理后的遥感图像输入到网络结构中,使用空洞卷积特征提取后,下采样到原遥感图像的1/16,再经过ASPP层应用不同扩张率的空洞卷积分别进行卷积操作;
步骤3.2:设计出位置注意力和通道注意力模块,将两个注意力模块加入到DeepLabv3+网络结构中,和ASPP层形成并联结构,把步骤3.1提取到的特征图并行处理,经过注意力模块加权后的特征图与ASPP层处理好的特征图进行融合,然后输入到编码器模块进行处理;
步骤3.3:在上采样恢复阶段,采用解码器模块,先将特征图经过双线性插值法恢复到原遥感图像的1/4,然后融合编码器中的低级特征,再进行双线性插值得到与原始图片相同大小的分割预测结果。
进一步地,所述步骤3中,按照以下方式设计位置注意力模块:
将经过步骤3.1提取到的原始特征图A,分别经过卷积操作得到特征矩阵B、C、D,将B和C重塑维度,把B转置后与C相乘,并经过softmax函数,生成空间注意力权重矩阵S,模拟出两个位置之间的关系权重,最后将矩阵D与原始特征图A相加,得到输出的特征图E,所涉及公式为:
其中Sji表示特征图中第i个位置对第j个位置的影响因子,Bi表示矩阵B的第i个位置元素,Cj表示矩阵C的第j个位置元素,Ej表示输出特征图E中的第j个位置元素,α为学习参数,Di表示矩阵D的第i个位置元素,A表示原始特征图,Aj表示第j个位置元素。
进一步地,所述步骤3中,按照以下方式设计通道注意力模块:
先对输入特征图F分别进行全局平均池化和全局最大池化两个操作,得到通道数为C的两个特征图Favg和Fmax,将上述两个特征图进行分组操作,得到C组通道数为2的特征图,对其分别进行卷积操作,将结果按照通道进行融合,使用softmax函数得到每条通道的权重,并逐一加权到特征图F上,得到输出的特征图F′,所涉及公式为:
Mc(F)=σ{W{δ[Gc(Favg;Fmax)]}} (5)
其中F为通道注意力模块的输入特征图,F′为通道注意力模块的输出特征图,Mc(F)为对特征图F进行处理后得到通道权重的过程,σ为softmax函数,W为1×1的卷积操作,δ为激活函数,Gc为通道分组卷积操作,Favg与Fmax分别为特征图F经过全局平均池化与全局最大池化处理之后得到的特征图。
进一步地,所述步骤4中,选择PyCharm专业版,使用深度学习框架PyTorch1.9.0进行网络结构的训练。
进一步地,所述步骤5中,在网络训练过程中,损失函数设为softmax交叉熵损失函数。
与现有技术相比,本发明具有的有益效果:
采用DeepLabv3+网络结构来进行图像分割,并且加入注意力模块。相比较原来的网络结构,分割出的遥感图像MIoU指标有所提升,分割精度更高,对于多尺度目标和边缘特征提取效果明显。本发明方案整体方便理解,容易操作,所有训练在深度学习模型中均可完成,对于遥感图像分割有更好的效果。
实验表明,相较于FCN、U-Net、SegNet、ResNet、DeepLabv3+网络结构,加入注意力机制的DeepLabv3+网络结构取得了更高的精度,相对于之前的网络,MIoU提高了1.63%,在探究注意力模块与ASPP层并联或串联的实验过程中,并联结构有更好的表现。
附图说明
图1为本发明实施例一种基于DeepLabv3+网络的遥感图像分割方法的流程图;
图2为本发明实施例位置注意力模块设计图;
图3为本发明实施例通道注意力模块设计图;
图4为本发明实施例不同网络结构的实验分割结果图,其中(a)为原始图像,(b)为标记图像(即标签图),(c)为FCN网络分割结果图,(d)为SegNet网络分割结果图,(e)为U-Net网络分割结果图,(f)为ResNet网络分割结果图,(g)为DeepLabv3+网络分割结果图,(h)为本发明分割结果图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于DeepLabv3+网络的遥感图像分割方法,包括:
步骤1:下载数据集。从卫星影像的AI分类与识别比赛中下载数据集,比赛分为初赛和复赛,数据集总共包含五张图片,图像大小分别为两张7969×7939像素、三张5000×5000左右像素的图片,并且包含每张图片所对应的标签图。
步骤2:对下载的遥感图像进行数据预处理。由于原图片太大、分辨率太高、计算量巨大,导致无法直接输入到深度学习网络中进行训练,因此需要进行数据增强。本实施例所用数据增强方法包括以下具体方法,随机取样、旋转、沿y轴翻转90度和180度、添加噪声。经过数据预处理后,形成可以输入网络的数据集,总共得到30000张图片,按照5:1的比例分为训练集和测试集。
步骤3:使用深度学习网络模型进行训练,复现DeepLabv3+网络结构,根据网络模型设计出注意力模块,分别为位置注意力模块和通道注意力模块,然后将注意力模块加入到DeepLabv3+网络结构,得到改进的DeepLabv3+网络结构。
步骤4:使用PyCharm程序设计软件,在PyTorch深度学习框架中进行训练,作为一种可实施方式,选择PyCharm专业版,使用深度学习框架PyTorch1.9.0进行网络结构的训练。在训练中,初始学习率lr设置为0.0002,权重衰减设置为0.0005,使用Adam优化器。实验的硬件环境为:CPU为AMD Ryzen 7-4800H,2.9GHZ,GPU为GeForce RTX 2080Ti。
步骤5:将步骤2中得到的数据集输入到步骤3设计好的DeepLabv3+深度学习网络结构中,并在步骤4中设置好训练参数的PyTorch深度学习框架中进行训练,训练好的网络结构即为最终的改进DeepLabv3+网络结构模型。作为一种可实施方式,在网络训练过程中,损失函数设为softmax交叉熵损失函数,表达式为:
步骤6:输入测试集进行测试。将步骤2中分出的测试集部分,输入到训练好的深度学习模型,对测试集进行训练,得到测试集的结果,进行实验对比,根据实验数据对比可知,本发明有利于提升遥感图像分割精度。
进一步地,步骤3包括:
步骤3-1:使用DeepLabv3+网络结构,在特征提取阶段,分为编码器和解码器两部分,编码器部分采用ASPP空间金字塔池化模块,将特征图分别进行1×1空洞卷积、扩张率为6、12、18的3×3空洞卷积以及平均池化,然后将处理好的特征图进行连接,实现多尺度目标的特征提取,得到经过特征提取阶段提取到的原始特征图A。具体地,使用1×1空洞卷积特征提取后,下采样到原遥感图像的1/16,再经过ASPP层应用不同扩张率的空洞卷积分别进行卷积操作,在特征图还是原遥感图像的1/16的情况下,增大感受野;
步骤3-2:设计出位置注意力和通道注意力模块,将两个注意力模块加入到DeepLabv3+网络结构中,和ASPP层形成并联结构,把步骤3.1提取到的特征图并行处理,经过注意力模块加权后的特征图与ASPP层处理好的特征图进行融合,然后输入到编码器模块进行处理;
进一步地,按照以下方式设计位置注意力模块:
位置注意力模块设计如图2所示,将经过步骤3-1处理得到的原始特征图A,分别经过卷积操作得到特征矩阵B、C、D,将B和C重塑维度,把B转置后与C相乘,并经过softmax函数,生成空间注意力权重矩阵S,模拟出两个位置之间的关系权重,位置关系越紧密,权重值越高。最后将矩阵D与原始特征图A相加,得到经过位置注意力模块的特征图E。上述步骤所涉及公式为:
其中(2)式中,Sji表示特征图中第i个位置对第j个位置的影响因子,Bi表示矩阵B的第i个位置元素,Cj表示矩阵C的第j个位置元素,(3)式中,Ej表示输出特征图E中的第j个位置元素,α为学习参数,Di表示矩阵D的第i个位置元素,A表示原始特征图,Aj表示第j个位置元素。
进一步地,按照以下方式设计通道注意力模块:
通道注意力模块设计如图3所示,先对特征图F分别进行全局平均池化和全局最大池化两个操作,能得到通道数为C的两个特征图Favg和Fmax。将两个特征图进行分组操作,得到C组通道数为2的特征图,对其分别进行卷积操作,将结果按照通道进行融合,使用softmax函数得到每条通道的权重,并逐一加权到原来的特征图上,得到经过通道注意力模块的特征图F′。上述步骤所涉及公式为:
Mc(F)=σ{W{δ[Gc(Favg;Fmax)]}} (5)
其中(4)式中,F为通道注意力模块的输入特征图,F′为通道注意力模块的输出特征图,Mc(F)为对特征图F进行处理后得到通道权重的过程。在(5)式中,σ为softmax函数,W为1×1的卷积操作,δ为激活函数,Gc为通道分组卷积操作,Favg与Fmax分别为特征图F经过全局平均池化与全局最大池化处理之后得到的特征图。
步骤3-3:在解码器上采样恢复阶段,将低层特征与高级特征相结合,恢复物体的边缘特征信息。具体地,在上采样恢复阶段,采用解码器模块,先将特征图经过双线性插值法恢复到原遥感图像的1/4,然后融合编码器中的低级特征,再进行双线性插值得到与原始图片相同大小的分割预测结果。
为验证本发明效果,进行如下实验:
本发明选择FCN、U-Net、SegNet、ResNet、DeepLabv3+五种网络结构进行对比实验。表1是实施例在不同网络结构中训练得到的分割结果。从图像分割中最重要的指标MIoU(均交并比)指数来看,MIoU越接近于1,代表图像的预测值与真实值越接近。从表中可以看出,本发明方法取得的指数达到了86.09%,相对于其它网络结构有所提高,比原始的DeepLabv3+结构高出1.63%,取得了有效的提升。图4是不同网络结构中分割出的实验结果图,从实验对比图中可以看出,在建筑、水体、道路、植物等物体的边缘分割更加精细。实施例表明本发明提出的基于DeepLabv3+和注意力机制的网络结构在边缘细节和特征提取上都优于其它网络结构,证明了本方法的有效性。
表1 MIoU指标对比
网络结构 | Batch_size | 训练集 | 测试集 | MIoU |
FCN | 2 | 25000 | 5000 | 78.69% |
SegNet | 2 | 25000 | 5000 | 81.08% |
U-Net | 2 | 25000 | 5000 | 82.64% |
ResNet | 2 | 25000 | 5000 | 82.81% |
DeepLabv3+ | 2 | 25000 | 5000 | 84.46% |
DeepLabv3+并联注意力模块 | 2 | 25000 | 5000 | 86.09% |
综上,本发明采用DeepLabv3+网络结构来进行图像分割,并且加入注意力模块。相比较原来的网络结构,分割出的遥感图像MIoU指标有所提升,分割精度更高,对于多尺度目标和边缘特征提取效果明显。本发明方案整体方便理解,容易操作,所有训练在深度学习模型中均可完成,对于遥感图像分割有更好的效果。实验表明,相较于FCN、U-Net、SegNet、ResNet、DeepLabv3+网络结构,加入注意力机制的DeepLabv3+网络结构取得了更高的精度,相对于之前的网络,MIoU提高了1.63%,在探究注意力模块与ASPP层并联或串联的实验过程中,并联结构有更好的表现。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,包括:
步骤1,从卫星影像的AI分类与识别比赛中下载出遥感图像数据集,所述遥感图像包含原始图像以及对应的标签图;
步骤2,对下载的遥感图像进行预处理;
步骤3,对DeepLabv3+网络结构进行改进:在DeepLabv3+网络结构的基础上,添加注意力模块,所述注意力模块包括位置注意力模块和通道注意力模块;
步骤4,使用PyCharm程序设计软件,在PyTorch深度学习框架中设置训练参数;
步骤5,将步骤2处理后得到的数据集输入到步骤3设计好的DeepLabv3+深度学习网络结构中,并在步骤4中设置好训练参数的PyTorch深度学习框架中进行训练,得到最终的改进DeepLabv3+网络结构模型;
步骤6,将待分割遥感图像输入到最终的改进DeepLabv3+网络结构模型中,得到遥感图像分割结果。
2.根据权利要求1所述的一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,所述步骤2包括:
对下载的遥感图像进行数据增强,包括:随机取样、旋转、沿y轴翻转90度和180度、添加噪声。
3.根据权利要求1所述的一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,所述步骤3包括:
步骤3.1:将预处理后的遥感图像输入到网络结构中,使用空洞卷积特征提取后,下采样到原遥感图像的1/16,再经过ASPP层应用不同扩张率的空洞卷积分别进行卷积操作;
步骤3.2:设计出位置注意力和通道注意力模块,将两个注意力模块加入到DeepLabv3+网络结构中,和ASPP层形成并联结构,把步骤3.1提取到的特征图并行处理,经过注意力模块加权后的特征图与ASPP层处理好的特征图进行融合,然后输入到编码器模块进行处理;
步骤3.3:在上采样恢复阶段,采用解码器模块,先将特征图经过双线性插值法恢复到原遥感图像的1/4,然后融合编码器中的低级特征,再进行双线性插值得到与原始图片相同大小的分割预测结果。
4.根据权利要求3所述的一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,所述步骤3中,按照以下方式设计位置注意力模块:
将经过步骤3.1提取到的原始特征图A,分别经过卷积操作得到特征矩阵B、C、D,将B和C重塑维度,把B转置后与C相乘,并经过softmax函数,生成空间注意力权重矩阵S,模拟出两个位置之间的关系权重,最后将矩阵D与原始特征图A相加,得到输出的特征图E,所涉及公式为:
其中Sji表示特征图中第i个位置对第j个位置的影响因子,Bi表示矩阵B的第i个位置元素,Cj表示矩阵C的第j个位置元素,Ej表示输出特征图E中的第j个位置元素,α为学习参数,Di表示矩阵D的第i个位置元素,A表示原始特征图,Aj表示第j个位置元素。
5.根据权利要求3所述的一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,所述步骤3中,按照以下方式设计通道注意力模块:
先对输入特征图F分别进行全局平均池化和全局最大池化两个操作,得到通道数为C的两个特征图Favg和Fmax,将上述两个特征图进行分组操作,得到C组通道数为2的特征图,对其分别进行卷积操作,将结果按照通道进行融合,使用softmax函数得到每条通道的权重,并逐一加权到特征图F上,得到输出的特征图F′,所涉及公式为:
Mc(F)=σ{W{δ[Gc(Favg;Fmax)]}} (5)
其中F为通道注意力模块的输入特征图,F′为通道注意力模块的输出特征图,Mc(F)为对特征图F进行处理后得到通道权重的过程,σ为softmax函数,W为1×1的卷积操作,δ为激活函数,Gc为通道分组卷积操作,Favg与Fmax分别为特征图F经过全局平均池化与全局最大池化处理之后得到的特征图。
6.根据权利要求1所述的一种基于DeepLabv3+网络的遥感图像分割方法,其特征在于,所述步骤5中,在网络训练过程中,损失函数设为softmax交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647777.8A CN116228789A (zh) | 2022-12-21 | 2022-12-21 | 一种基于DeepLabv3+网络的遥感图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211647777.8A CN116228789A (zh) | 2022-12-21 | 2022-12-21 | 一种基于DeepLabv3+网络的遥感图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228789A true CN116228789A (zh) | 2023-06-06 |
Family
ID=86586282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211647777.8A Pending CN116228789A (zh) | 2022-12-21 | 2022-12-21 | 一种基于DeepLabv3+网络的遥感图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228789A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN117612025A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 基于扩散模型的遥感图像屋顶识别方法及系统 |
-
2022
- 2022-12-21 CN CN202211647777.8A patent/CN116228789A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN116862252B (zh) * | 2023-06-13 | 2024-04-26 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN117612025A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 基于扩散模型的遥感图像屋顶识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN108596248B (zh) | 一种基于改进深度卷积神经网络的遥感影像分类方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN113674403B (zh) | 一种三维点云上采样方法、系统、设备及介质 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN116228789A (zh) | 一种基于DeepLabv3+网络的遥感图像分割方法 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
Jia et al. | A regularized convolutional neural network for semantic image segmentation | |
Wang et al. | SSRNet: In-field counting wheat ears using multi-stage convolutional neural network | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
Xiao et al. | Enhancing multiscale representations with transformer for remote sensing image semantic segmentation | |
Shen et al. | Exploiting semantics for face image deblurring | |
CN113468996B (zh) | 一种基于边缘细化的伪装物体检测方法 | |
CN112926485B (zh) | 一种少样本水闸图像分类方法 | |
CN111539314A (zh) | 面向云雾遮挡的海面目标显著性检测方法 | |
CN112837320B (zh) | 一种基于并行空洞卷积的遥感影像语义分割方法 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
Jiang et al. | Sparse attention module for optimizing semantic segmentation performance combined with a multi-task feature extraction network | |
CN114187454A (zh) | 一种新的基于轻量级网络的显著性目标检测方法 | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
Lin et al. | Semantic segmentation network with multi-path structure, attention reweighting and multi-scale encoding | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
CN112560719B (zh) | 基于多尺度卷积-多核池化的高分辨率影像水体提取方法 | |
Wu et al. | A lightweight network for vehicle detection based on embedded system | |
CN111985487A (zh) | 一种遥感影像目标提取方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |