CN116563313B - 基于门控融合注意力的遥感影像大豆种植区域分割方法 - Google Patents
基于门控融合注意力的遥感影像大豆种植区域分割方法 Download PDFInfo
- Publication number
- CN116563313B CN116563313B CN202310843999.5A CN202310843999A CN116563313B CN 116563313 B CN116563313 B CN 116563313B CN 202310843999 A CN202310843999 A CN 202310843999A CN 116563313 B CN116563313 B CN 116563313B
- Authority
- CN
- China
- Prior art keywords
- feature map
- attention
- channel
- feature
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000010469 Glycine max Nutrition 0.000 title claims abstract description 67
- 244000068988 Glycine max Species 0.000 title claims abstract description 67
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims description 78
- 238000010586 diagram Methods 0.000 claims description 40
- 238000013507 mapping Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000017105 transposition Effects 0.000 claims description 9
- 238000003709 image segmentation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Abstract
本发明涉及基于门控融合注意力的遥感影像大豆种植区域分割方法,与现有技术相比解决了难以准确针对大豆种植区域进行分割的缺陷。本发明包括以下步骤:遥感影像的获取与预处理;构建大豆种植区域分割模型;大豆种植区域分割模型的训练;待分割遥感影像的获取;遥感影像大豆种植区域分割结果的获得。本发明在检测大豆种植区时,可以提升融合特征的判别性,提高语义分割效果,有利于大豆种植区提取任务。
Description
技术领域
本发明涉及遥感图像处理技术领域,具体来说是基于门控融合注意力的遥感影像大豆种植区域分割方法。
背景技术
深度学习方法通过对大量样本的训练来自动提取判别性特征,并具有快速、高精度的检测优点,被广泛应用于图像分割等视觉任务中。在常用的深度学习分割模型中,DANet利用自注意力机制捕捉丰富的上下文依赖知识,构建特征关联并用于场景分割任务。该模型设计了一种双流注意力机制,从空间位置和通道维度上建模特征的语义依赖关系,分别得到位置注意力特征和通道注意力特征。
其中,位置注意力特征聚合了图像中所有其他位置的像素特征,而通道注意力聚合了所有通道映射之间的依赖信息,最后将两种注意力机制进行等权加法融合,以提升语义分割的精度。但等权加法融合缺乏对不同注意力特征的分析以及自适应权重分配,抑制了融合特征的表征能力。
大豆的田间种植范围广、结构复杂,且不同时相的空间分布表观各异。通过遥感技术获取的星载图像,包含大量的背景噪声以及其他种植物区域,加上气候变化和云覆盖影响,给遥感场景的大豆种植区空间分布识别带来了巨大的挑战。
因此,如何针对遥感影像实现大豆种植区域的准确分割已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中难以准确针对大豆种植区域进行分割的缺陷,提供一种基于门控融合注意力的遥感影像大豆种植区域分割方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于门控融合注意力的遥感影像大豆种植区域分割方法,包括以下步骤:
遥感影像的获取与预处理:获取大豆种植区的遥感影像并进行预处理;
构建大豆种植区域分割模型:基于门控交互模块构建大豆种植区域分割模型;
大豆种植区域分割模型的训练:将预处理后的遥感影像输入大豆种植区域分割模型进行训练;
待分割遥感影像的获取:获取待分割的遥感影像并进行预处理;
遥感影像大豆种植区域分割结果的获得:将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型,获得大豆种植区域遥感影像分割结果。
所述构建大豆种植区域分割模型包括以下步骤:
设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块,其中,主干网络的输入为预处理后的遥感影像,输出为提取的原图1/8大小的特征图,位置注意力模块和通道注意力模块并行设置,分别获取空间和通道维度的特征依赖关系,门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互;
设定主干网络:使用ResNet50作为主干特征提取网络,ResNet50共50层,分为5个stage;
设定输入一张256×256×3的原始图像,经过Stage 0预处理模块,先后经过64个卷积核的一层卷积层、BN层、ReLU激活函数、MaxPooling层输出64×64×64的特征图,其中,Stage1-Stage5包含了49个卷积层以及残差连接;
最后再经过AvgPooling层和一层全连接层输出32×32×2048的主干网络特征图;
设定位置注意力模块;
位置注意力模块将主干网络特征图输入位置注意力子网络,先经过3个卷积层生成3个新的特征图B、G、D;对于B特征图进行reshape和转置得到特征图B’;对于G特征图进行reshape,并与B’特征图进行相乘再经过Softmax操作得到特征图G’;对于D特征图进行reshape,与G’特征图相乘再reshape得到特征图D’;最后将D’特征图与主干网络特征图A相加得到位置注意力特征图;
设定通道注意力模块;
通道注意力模块将主干网络特征图输入位置注意力子网络,对于特征图A进行reshape得到特征图X;对于X特征图进行转置得到特征图XT,将X特征图与特征图XT相乘再经过Softmax操作得到特征图XXT;对于XXT特征图与特征图X相乘得到特征图XXTX;最后将XXTX特征图进行reshape,再与主干网络特征图A相加得到通道注意力特征图;
设定门控交互模块。
所述大豆种植区域分割模型的训练包括以下步骤:
将预处理后的遥感影像输入主干网络,输出特征图;
特征图送入位置注意力模块,通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>,
其中C、H和W分别是图像的通道数、高和宽;
同时将特征图F送入卷积层,进行reshape操作得到特征图,将特征图R与特征图S的转置相乘得到特征图/>;
最后将特征图T进行reshape操作,与原特征图F相加得到最终的位置注意力特征图,即:/>,其中,τ是可学习的超参数,Pi第i通道的位置注意力图,j是特征图的位置j像素,H是特征图的高,W是特征图的宽,Sij是空间关系映射图S第i通道j位置像素的空间映射权重,Rj是特征图R在第j位置的特征,Fi是特征图F的第i通道特征;
将特征图送入通道注意力模块,通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>,其中C是图像的通道数;
同时,将特征图进行reshape操作得到特征图/>,将通道依赖关系图/>的转置与特征图/>相乘得到特征图/>;
最后将特征图Z进行reshape操作,与特征图F相加得到最终的通道注意力特征图,即:/>,
其中,是可学习的超参数,Qi第i位置像素的通道注意力图,j是特征图的第j通道,C是特征图的通道数,Xij是通道依赖关系映射图X第j通道i位置像素的通道映射权重,Yj是特征图Y在第j通道的特征,Fi是特征图F的第i位置像素特征;
将最终的位置注意力特征图输入门控交互模块进行训练:将不同交互特征图、/>、/>输入门控交互模块进行训练。
所述设定门控交互模块包括以下步骤:
将位置注意力特征图和通道注意力特征图/>,进行等权加法融合,得到等权交互特征/>,即:
;
其中,是位置注意力特征图/>,/>是通道注意力特征图/>,是矩阵加法操作;
以位置注意力特征图作为权值,对通道注意力特征图/>进行加权融合,得到位置加权的交互特征/>,即:
,
其中,是矩阵乘法操作;
以通道注意力特征图作为权值,对位置注意力特征图进行加权融合,得到通道加权的交互特征/>,即:/>。
所述的将最终的位置注意力特征图输入门控交互模块进行训练包括以下步骤:
将位置注意力特征图和通道注意力特征图/>输入门控交互模块,输出等权交互特征/>,位置加权的交互特征/>和通道加权的交互特征/>;
通过门控融合网络自适应地融合三种注意力交互特征,输出权重,分别对应于每种交互特征,即:
,
其中,是等权交互特征/>的融合权重,/>是位置加权交互特征/>的融合权重,/>是通道加权交互特征/>的融合权重;
门控交互模块动态地对不同交互特征分配权重,使得融合后的特征适应于当前场景,得到最终的融合特征,即:
;
将输入到最后一层卷积中,生成最终大豆种植区的像素级预测图。
有益效果:
本发明的基于门控融合注意力的遥感影像大豆种植区域分割方法,与现有技术相比在检测大豆种植区时,可以提升融合特征的判别性,提高语义分割效果,有利于大豆种植区提取任务。
为提升大豆种植区的识别精度,提出了一种基于门控融合注意力的大豆种植区识别方法,所提方法利用多注意力机制,分别提取通道注意力和位置注意力的特征。其中,位置注意力特征聚合了图像中所有其他位置的像素特征,而通道注意力聚合了所有通道映射之间的依赖信息。之后,提出一种动态门控融合的注意力交互机制,设计了三种不同的注意力交互方式,充分考虑位置注意力和通道注意力的特性,并进行动态交互。并设计一种门控融合机制,自适应地分配每种交互特征的权重,增强了模型的特征表征能力,提高大豆种植区的识别精度。
附图说明
图1为本发明的方法顺序图;
图2为现有技术中的遥感影像图;
图3为图2的标签影像图;
图4为利用本发明所述方法针对图2所获得的大豆种植区域分割图。
实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于门控融合注意力的遥感影像大豆种植区域分割方法,包括以下步骤:
第一步,遥感影像的获取与预处理:获取大豆种植区的遥感影像并进行预处理。
第二步,构建大豆种植区域分割模型:基于门控交互模块构建大豆种植区域分割模型。
针对大豆种植区提取任务,本发明提出了一种基于门控融合注意力的深度学习模型的分割方法。该模型采用了两种注意力机制,从空间位置和通道维度上建模特征的语义依赖关系,分别得到位置注意力特征和通道注意力特征。其中,位置注意力特征聚合了图像中所有其他位置的像素特征,而通道注意力聚合了所有通道映射之间的依赖信息。最后设计了三种不同的注意力交互方式,并利用门控融合机制动态地融合不同的交互注意力,提升特征的表征能力。
其具体步骤如下:
(1)设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块,其中,主干网络的输入为预处理后的遥感影像,输出为提取的原图1/8大小的特征图,位置注意力模块和通道注意力模块并行设置,分别获取空间和通道维度的特征依赖关系,门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互。
(2)设定主干网络。为了提高语义分割效果,针对大豆种植区提取任务,本发明在DANet网络基础上,使用Resenet网络作为骨干网络,对最后两层降采样进行剪枝并附加空洞卷积模块,以提取原图1/8大小的特征图。
使用ResNet50作为主干特征提取网络,ResNet50共50层,分为5个stage;
设定输入一张256×256×3的原始图像,经过Stage 0预处理模块,先后经过64个卷积核的一层卷积层、BN层、ReLU激活函数、MaxPooling层输出64×64×64的特征图,其中,Stage1-Stage5包含了49个卷积层以及残差连接;
最后再经过AvgPooling层和一层全连接层输出32×32×2048的主干网络的特征图。
(3)设定位置注意力模块;为提取图像中更有判别力的大豆种植区域特征,本发明引入位置注意力模块,以增强模型的特征提取能力。通过计算图像中不同位置的像素特征关联关系,得到图像的全局位置语义特征。位置注意力特征图在原始特征基础上,根据空间关系有选择的聚合其他位置的特征,因此能够提取具有全局依赖关系的位置语义信息。
位置注意力模块将主干网络特征图输入位置注意力子网络,先经过3个卷积层生成3个新的特征图B、G、D;对于B特征图进行reshape和转置得到特征图B’;对于G特征图进行reshape,并与B’特征图进行相乘再经过Softmax操作得到特征图G’;对于D特征图进行reshape,与G’特征图相乘再reshape得到特征图D’;最后将D’特征图与主干网络特征图A相加得到位置注意力特征图。
(4)设定通道注意力模块,高层语义特征图的每个通道对应于每一个具体类别的语义响应,因此本发明引入通道注意力模块,挖掘通道之间的语义相关性,以增强模型对于特定语义的表征能力。通过计算特征图不同通道之间的语义响应依赖关系,得到大豆种植区的增强特征表示。
由于主干网络提取的特征图中每个通道对应于每一个具体类别的语义响应,因此引入通道注意力模块,挖掘通道之间的语义相关性,以增强模型对于特定语义的表征能力,即得到通道注意力特征图。
通道注意力模块将主干网络特征图输入位置注意力子网络,对于特征图A进行reshape得到特征图X;对于X特征图进行转置,再经过Softmax操作得到特征图XT;对于X特征图与特征图XT相乘得到特征图XXT;对于XXT特征图与特征图X相乘得到特征图XXTX;最后将XXTX特征图进行reshape,再与主干网络特征图A相加得到通道注意力特征图。
(5)设定门控交互模块。为了更高效的融合不同注意力特征图,本发明设计一种门控交互模块。将位置注意力模块和通道注意力模块输出的位置注意力特征图和通道注意力特征图进行特征自适应交互,实现更稳健的特征表示。其中等权交互特征均衡地考虑不同特征图的重要性,既保持了全局特征一致性,同时关注了局部语义特征。位置加权交互特征利用通道映射的语义关系来增强位置注意力特征,进一步强化局部区域的语义特征;通道加权交互特征利用空间位置关系来增强通道注意力特征,进一步优化语义特征的全局一致性。
所述设定门控交互模块包括以下步骤:
A1)将位置注意力特征图和通道注意力特征图/>,进行等权加法融合,得到等权交互特征/>,即:/>,
其中,是位置注意力特征图/>,/>是通道注意力特征图/>,是矩阵加法操作;
A2)以位置注意力特征图作为权值,对通道注意力特征图进行加权融合,得到位置加权的交互特征/>,即:,其中,/>是矩阵乘法操作;
A3)以通道注意力特征图作为权值,对位置注意力特征图进行加权融合,得到通道加权的交互特征/>,即:/>。
第三步,大豆种植区域分割模型的训练:将特征图输入大豆种植区域分割模型进行训练。其具体步骤如下:
(1)将预处理后的遥感影像输入主干网络,输出特征图。
(2)特征图送入位置注意力模块,通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>,
其中C、H和W分别是图像的通道数、高和宽;
同时将特征图送入卷积层,进行reshape操作得到特征图/>,将特征图/>与特征图/>的转置相乘得到特征图/>;
最后将特征图进行reshape操作,与原特征图/>相加得到最终的位置注意力特征图/>,即:
,
其中,τ是可学习的超参数,Pi第i通道的位置注意力图,j是特征图的位置j像素,H是特征图的高,W是特征图的宽,Sij是空间关系映射图S第i通道j位置像素的空间映射权重,Rj是特征图R在第j位置的特征,Fi是特征图F的第i通道特征;
(3)将特征图送入通道注意力模块,通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>,
其中C是图像的通道数;
同时,将特征图进行reshape操作得到特征图/>,将通道依赖关系图/>的转置与特征图/>相乘得到特征图/>;
最后将特征图Z进行reshape操作,与特征图F相加得到最终的通道注意力特征图,即:
,
其中,是可学习的超参数,Qi第i位置像素的通道注意力图,j是特征图的第j通道,C是特征图的通道数,Xij是通道依赖关系映射图X第j通道i位置像素的通道映射权重,Yj是特征图Y在第j通道的特征,Fi是特征图F的第i位置像素特征;
通道注意力特征图Q在原始特征基础上,利用通道之间的语义依赖关系,聚合长期语义依赖的其他通道特征,因此能够提高特征的判别性。
(4)将最终的位置注意力特征图输入门控交互模块进行训练:将不同交互特征图、/>、/>输入门控交互模块进行训练。
A1)将位置注意力特征图和通道注意力特征图/>输入门控交互模块,输出通道加权的交互特征/>,位置加权的交互特征/>和通道加权的交互特征/>;
A2)通过门控融合网络自适应地融合三种注意力交互特征,输出权重,分别对应于每种交互特征,即:
,
其中,是等权交互特征/>的融合权重,/>是位置加权交互特征/>的融合权重,/>是通道加权交互特征/>的融合权重;
A3)门控交互模块动态地对不同交互特征分配权重,使得融合后的特征适应于当前场景,得到最终的融合特征,即:/>;
将输入到最后一层卷积中,生成最终大豆种植区的像素级预测图。
第四步,待分割遥感影像的获取:获取待分割的遥感影像并进行预处理。
第五步,遥感影像大豆种植区域分割结果的获得:将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型,获得大豆种植区域遥感影像分割结果。
如图2所示,其为待处理分析的遥感影像图像,经过本发明所述方法处理后获得如图4所示大豆种植区域遥感影像分割图像,与其图3所示的标签图像对比,本发明所述方法的分割效果较好,达到了实际使用需求。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (3)
1.一种基于门控融合注意力的遥感影像大豆种植区域分割方法,其特征在于,包括以下步骤:
11)遥感影像的获取与预处理:获取大豆种植区的遥感影像并进行预处理;
12)构建大豆种植区域分割模型:基于门控交互模块构建大豆种植区域分割模型;
所述构建大豆种植区域分割模型包括以下步骤:
121)设定大豆种植区域分割模型包括主干网络、位置注意力模块、通道注意力模块和门控交互模块,其中,主干网络的输入为预处理后的遥感影像,输出为提取的原图1/8大小的特征图,位置注意力模块和通道注意力模块并行设置,分别获取空间和通道维度的特征依赖关系,门控交互模块将位置注意力模块输出的位置注意力特征图、通道注意力模块输出的通道注意力特征图进行特征自适应交互;
122)设定主干网络:使用ResNet50作为主干特征提取网络,ResNet50共50层,分为5个stage;
设定输入一张256×256×3的原始图像,经过Stage0预处理模块,先后经过64个卷积核的一层卷积层、BN层、ReLU激活函数、MaxPooling层输出64×64×64的特征图,其中,Stage1-Stage5包含了49个卷积层以及残差连接;
最后再经过AvgPooling层和一层全连接层输出32×32×2048的主干网络特征图;
123)设定位置注意力模块;
位置注意力模块将主干网络特征图输入位置注意力子网络,先经过3个卷积层生成3个新的特征图B、G、D;对于B特征图进行reshape和转置得到特征图B’;对于G特征图进行reshape,并与B’特征图进行相乘再经过Softmax操作得到特征图G’;对于D特征图进行reshape,与G’特征图相乘再reshape得到特征图D’;最后将D’特征图与主干网络特征图A相加得到位置注意力特征图;
124)设定通道注意力模块;
通道注意力模块将主干网络特征图输入位置注意力子网络,对于特征图A进行reshape得到特征图X;对于X特征图进行转置得到特征图XT,将X特征图与特征图XT相乘再经过Softmax操作得到特征图XXT;对于XXT特征图与特征图X相乘得到特征图XXTX;最后将XXTX特征图进行reshape,再与主干网络特征图A相加得到通道注意力特征图;
125)设定门控交互模块;
所述设定门控交互模块包括以下步骤:
1251)将位置注意力特征图和通道注意力特征图/>,进行等权加法融合,得到等权交互特征/>,即:
,
其中,是位置注意力特征图/>,/>是通道注意力特征图/>,/>是矩阵加法操作;
1252)以位置注意力特征图作为权值,对通道注意力特征图/>进行加权融合,得到位置加权的交互特征/>,即:
,其中,/>是矩阵乘法操作;
1253)以通道注意力特征图作为权值,对位置注意力特征图进行加权融合,得到通道加权的交互特征/>,即:
;
13)大豆种植区域分割模型的训练:将预处理后的遥感影像输入大豆种植区域分割模型进行训练;
14)待分割遥感影像的获取:获取待分割的遥感影像并进行预处理;
15)遥感影像大豆种植区域分割结果的获得:将预处理后的待分割遥感影像输入训练后的大豆种植区域分割模型,获得大豆种植区域遥感影像分割结果。
2.根据权利要求1所述的基于门控融合注意力的遥感影像大豆种植区域分割方法,其特征在于,所述大豆种植区域分割模型的训练包括以下步骤:
21)将预处理后的遥感影像输入主干网络,输出特征图;
22)特征图送入位置注意力模块,通过卷积、reshape、矩阵转置、矩阵相乘以及softmax操作得到空间关系映射图/>,其中C、H和W分别是图像的通道数、高和宽;
同时将特征图F送入卷积层,进行reshape操作得到特征图,将特征图R与特征图S的转置相乘得到特征图/>;
最后将特征图T进行reshape操作,与原特征图F相加得到最终的位置注意力特征图,即:
,
其中,τ是可学习的超参数,Pi第i通道的位置注意力图,j是特征图的位置j像素,H是特征图的高,W是特征图的宽,Sij是空间关系映射图S第i通道j位置像素的空间映射权重,Rj是特征图R在第j位置的特征,Fi是特征图F的第i通道特征;
23)将特征图送入通道注意力模块,通过reshape、矩阵转置、矩阵相乘以及softmax操作得到通道依赖关系图/>,其中C是图像的通道数;
同时,将特征图进行reshape操作得到特征图/>,将通道依赖关系图的转置与特征图/>相乘得到特征图/>;
最后将特征图Z进行reshape操作,与特征图F相加得到最终的通道注意力特征图,即:
,
其中,是可学习的超参数,Qi第i位置像素的通道注意力图,j是特征图的第j通道,C是特征图的通道数,Xij是通道依赖关系映射图X第j通道i位置像素的通道映射权重,Yj是特征图Y在第j通道的特征,Fi是特征图F的第i位置像素特征;
24)将最终的位置注意力特征图输入门控交互模块进行训练:将不同交互特征图、/>、/>输入门控交互模块进行训练。
3.根据权利要求2所述的基于门控融合注意力的遥感影像大豆种植区域分割方法,其特征在于,所述的将最终的位置注意力特征图输入门控交互模块进行训练包括以下步骤:
31)将位置注意力特征图和通道注意力特征图/>输入门控交互模块,输出等权交互特征/>,位置加权的交互特征/>和通道加权的交互特征;
32)通过门控融合网络自适应地融合三种注意力交互特征,输出权重/>,分别对应于每种交互特征,即:
,其中,/>是等权交互特征/>的融合权重,/>是位置加权交互特征/>的融合权重,/>是通道加权交互特征/>的融合权重;
33)门控交互模块动态地对不同交互特征分配权重,使得融合后的特征适应于当前场景,得到最终的融合特征,即:
;将/>输入到最后一层卷积中,生成最终大豆种植区的像素级预测图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310843999.5A CN116563313B (zh) | 2023-07-11 | 2023-07-11 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310843999.5A CN116563313B (zh) | 2023-07-11 | 2023-07-11 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116563313A CN116563313A (zh) | 2023-08-08 |
CN116563313B true CN116563313B (zh) | 2023-09-19 |
Family
ID=87498643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310843999.5A Active CN116563313B (zh) | 2023-07-11 | 2023-07-11 | 基于门控融合注意力的遥感影像大豆种植区域分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563313B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738113A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 |
CN112015863A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 一种基于图神经网络的多元特征融合中文文本分类方法 |
CN112233135A (zh) * | 2020-11-11 | 2021-01-15 | 清华大学深圳国际研究生院 | 眼底图像中视网膜血管分割方法及计算机可读存储介质 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN114220096A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于图像描述的遥感图像语义理解方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN114529793A (zh) * | 2022-02-23 | 2022-05-24 | 西华大学 | 一种基于门控循环特征融合的深度图像修复系统及方法 |
CN116310693A (zh) * | 2023-04-06 | 2023-06-23 | 福州大学 | 基于边缘特征融合和高阶空间交互的伪装目标检测方法 |
-
2023
- 2023-07-11 CN CN202310843999.5A patent/CN116563313B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738113A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 |
CN112015863A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 一种基于图神经网络的多元特征融合中文文本分类方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112233135A (zh) * | 2020-11-11 | 2021-01-15 | 清华大学深圳国际研究生院 | 眼底图像中视网膜血管分割方法及计算机可读存储介质 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN114220096A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于图像描述的遥感图像语义理解方法 |
CN114529793A (zh) * | 2022-02-23 | 2022-05-24 | 西华大学 | 一种基于门控循环特征融合的深度图像修复系统及方法 |
CN116310693A (zh) * | 2023-04-06 | 2023-06-23 | 福州大学 | 基于边缘特征融合和高阶空间交互的伪装目标检测方法 |
Non-Patent Citations (2)
Title |
---|
Dual attention Network for scene segmentation;jun fu;arXiv;1-10 * |
结合Sentinel-2影像和特征优选模型提取大豆种植区;黄林生;麦类作物学报;第43卷(第04期);524-535 * |
Also Published As
Publication number | Publication date |
---|---|
CN116563313A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818903B (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN110287800B (zh) | 一种基于sgse-gan的遥感图像场景分类方法 | |
CN108416378B (zh) | 一种基于深度神经网络的大场景sar目标识别方法 | |
CN110770752A (zh) | 多尺度特征融合网络结合定位模型的害虫自动计数方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN112070078B (zh) | 基于深度学习的土地利用分类方法及系统 | |
CN107451565B (zh) | 一种半监督小样本深度学习图像模式分类识别方法 | |
CN113128558B (zh) | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 | |
CN111738113B (zh) | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 | |
CN112949407B (zh) | 一种基于深度学习和点集优化的遥感影像建筑物矢量化方法 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
CN114266977A (zh) | 基于超分辨可选择网络的多auv的水下目标识别方法 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN113408549A (zh) | 基于模板匹配和注意力机制的少样本弱小目标检测方法 | |
Gu et al. | Visual affordance detection using an efficient attention convolutional neural network | |
Nie et al. | Adap-EMD: Adaptive EMD for aircraft fine-grained classification in remote sensing | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN111222576B (zh) | 一种高分辨率遥感图像分类方法 | |
CN113536925A (zh) | 一种基于引导注意力机制的人群计数方法 | |
CN116563313B (zh) | 基于门控融合注意力的遥感影像大豆种植区域分割方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
Jin et al. | Fusion of remote sensing images based on pyramid decomposition with Baldwinian Clonal Selection Optimization | |
CN114966587A (zh) | 基于卷积神经网络融合特征的雷达目标识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |