CN115393717A - 基于进化混合注意力机制的sar图像房屋提取方法及系统 - Google Patents
基于进化混合注意力机制的sar图像房屋提取方法及系统 Download PDFInfo
- Publication number
- CN115393717A CN115393717A CN202211045569.0A CN202211045569A CN115393717A CN 115393717 A CN115393717 A CN 115393717A CN 202211045569 A CN202211045569 A CN 202211045569A CN 115393717 A CN115393717 A CN 115393717A
- Authority
- CN
- China
- Prior art keywords
- network
- attention mechanism
- house
- follows
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 85
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 32
- 230000003993 interaction Effects 0.000 claims description 31
- 239000002245 particle Substances 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000007634 remodeling Methods 0.000 claims description 5
- 238000005728 strengthening Methods 0.000 claims description 5
- 230000003313 weakening effect Effects 0.000 claims description 5
- 238000009435 building construction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000012855 volatile organic compound Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于进化混合注意力机制的SAR图像房屋提取方法及系统,方法包括如下步骤:S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络;S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练;S4,利用步骤S3训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。本发明有利于识别大幅宽的SAR图像,同时可以增强SAR图像中的可辨识房屋特征,削减冗余特征。
Description
技术领域
本发明属于合成孔径雷达(SAR,Synthetic Aperture Radar)图像检测与分割技术领域,具体涉及一种基于进化混合注意力机制的SAR图像房屋建筑提取方法及系统。
背景技术
目前,在中国城镇化改造的背景下,对于一个地区城市变迁的分析需求日益强烈。SAR图像相较于传统的光学图像,具有成像幅宽大、抗干扰能力强等优点,对于房屋建筑面积的变化情况、人口密度的分析、人口迁徙情况的观察和违章建筑的监督等研究具有重要意义。然而,随着近年SAR图像数据的急速增加,对于SAR图像的识别和分割工作相对落后,因此,对于SAR图像的语义分割、目标识别和对检测结果的分析等方面的研究具有重要意义。
现阶段,基于传统卷积神经网络(Convolutional Neural Network,CNN),可以通过浅层学习的纹理特征和深层学习的语义特征,并通过特征融合,对SAR图像进行初步的目标检测和语义分割。但受成像机制的影响,SAR图像在成像的过程中,房屋建筑由于平台的不稳定导致几何形变,也会由于斜距成像产生透视收缩,此外,房屋还会和有一定高度的地物产生叠掩现象,这些都大大增加了图像信息的提取难度。所以,基于传统的深度学习方法对SAR图像中的建筑进行分割,效果往往不尽如人意。
因此,可以引入注意力机制,利用人类视觉的分析特点,通过扫描仅对重点区域和重点特征进行识别与分析。但目前应用较为广泛的注意力机制对于SAR图像中房屋的识别大多存在一定弊端,压缩和激励网络(Squeeze-and-Excitation Networks,SENet)应用了通道注意力机制,但采用平均池化的方式对特征图进行压缩会导致房屋边缘等特征的丢失;应用空间注意力机制的空间变压器网络(Spatial Transformer Networks,STN)可利用平移不变性聚焦到关键区域进行分析,但同时会丢失图像的全局信息;卷积块注意模块(Convolutional Block Attention Module,CBAM)提出了在SENet后使用空间注意力的方法,来弥补SENet在平均池化时损失的空间特征,但由于两种注意力机制是串行独立操作的,缺乏跨维度的交互操作,所以不适用于大幅宽的SAR图像识别。除此之外,CBAM网络缺乏对于各个局部特征之间依赖性的学习,无法解决SAR图像中房屋几何形变和透视收缩等带来的问题。因此,如何利用不同注意力机制的特点,设计能够克服SAR图像识别难度的进化混合注意力机制网络成为了本领域亟待解决的技术问题。
发明内容
基于现有技术存在的不足,本发明旨在提供一种基于进化混合注意力机制的SAR图像房屋建筑提取方法及系统,其采用基于粒子群算法加权融合的方式进行特征融合,得到关于房屋的语义分割结果。
为实现上述发明目的,本发明采用以下方案:
基于进化混合注意力机制的SAR图像房屋提取方法,包括如下步骤:
S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;本步骤优选采用SARBuD 1.0(GF-3精细模式SAR建筑数据集)数据集。
S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络。本步骤优选采用由16个残差块,49个卷积层组成的ResNet-50为主干网络采集图像特征。
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练改进。
S4,利用训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
进一步,步骤S1中对数据集的预处理包括:
S11,从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5,避免在建筑稀疏地区,房屋与山区混淆。
S12,将数据集按照5:1的比例分为训练集和测试集
进一步,步骤S2的具体步骤如下:
S21,在主干网络中使用基于空间注意力和跨维度交互模型的三重注意力模型(Triplet Attention Module),这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。
上述基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体步骤如下:
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,具体步骤如下:
第三个分支用于捕获高度与宽度间的空间依赖关系,具体步骤如下:
其中χi为第i个分支输入的特征图,为经过逆时针旋转(anti-clockwise)后得到交互结果,为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
S22,对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωvi+c1rand()(pbesti-αi)+c2rand()(gbest-αi) (7)
αi=αi+vii=1,2,3 (8)
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
S23,对主干网络输出的特征图,使用基于双通道自注意力机制的双注意力网络(Dual Attention Network,DANet),该网络由并行的空间自注意力模块和通道自注意力模块组成,空间自注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道自注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。
上述基于双通道自注意力机制的DANet定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体步骤如下:
S=softmax(CTB) (12)
通道自注意力机制用于捕获各个通道间的依赖关系,具体步骤如下:
X=softmax(A*A*T) (16)
进一步,S3中的模型训练过程具体如下:
S31,构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
S32,计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
进一步,S4的具体如下:将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(Mean Pixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU),观察并评估分割网络的性能。
本发明还提供了基于上述进化混合注意力机制的SAR图像房屋提取方法的系统,具体包括如下模块:
数据获取模块,用于获取SAR图像数据集,并对得到的SAR图像进行预处理,得到实验的数据集;
分割网络构建模块,通过主干网络采集图像特征,并基于通过进化的混合注意力机制,构建SAR图像房屋分割网络
分割网络训练模块,构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;
分割结果评估模块,利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,得到最终语义分割结果。
对比于现有技术,本发明的技术效果在于:
(1)本发明采用基于空间注意力和跨维度交互模型的Triplet Attention,解决了CBAM中两注意力模块之间依赖性低的问题,有利于识别大幅宽的SAR图像,同时可以增强SAR图像中的可辨识房屋特征,削减冗余特征。
(2)基于双通道自注意力机制的DANet,弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更能够解决SAR图像中房屋几何形变和透视收缩等带来的问题。
(3)本发明并行使用了多种注意力机制,可对不同注意力机制的特征提取结果进行加权融合。
附图说明
图1为本发明一种优选实施例基于进化混合注意力机制的SAR图像房屋提取方法的流程示意图;
图2为本发明S21中的三重注意力网络和S23中的双通道自注意网络示意图;
图3为本发明一种优选实施例基于进化混合注意力机制的SAR图像房屋提取系统框图。
具体实施方式
下面将结合附图和优选实施例阐述本发明的具体实施过程。
实施例1:
如图1-2所示,本实施例提供了一种基于进化混合注意力机制的SAR图像房屋提取方法,具体步骤如下:
S1,采用SARBuD 1.0(GF-3精细模式SAR建筑数据集)数据集,对数据集进行预处理,得到实验数据集。
步骤S1具体包括如下步骤:
从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1∶1.5,避免在建筑稀疏地区,房屋与山区混淆;并将数据集按照5∶1的比例分为训练集和测试集。
S2,采用由16个残差块,49个卷积层组成的ResNet-50为主干网络采集图像特征,并基于进化混合注意力机制构建房屋建筑分割网络。
步骤S2具体包括如下步骤:
S21,在ResNet-50主干网络中使用基于空间注意力和跨维度交互模型的TripletAttention,这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,公式如下:
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,公式如下:
第三个分支用于捕获高度与宽度间的空间依赖关系,公式如下:
其中χi为第i个分支输入的特征图,为经过逆时针旋转(anti-clockwise)后得到交互结果,为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
S22,对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωυi+c1rand()(pbesti-αi)+c2rand()(gbest-αi) (7)
αi=αi+vii=1,2,3 (8)
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,我们初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
S23,对主干网络输出的特征图,使用DANet模型,该模型的空间自注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。
上述基于双通道自注意力机制的DANet定义如下:
该模型由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,公式如下:
S=softmax(CTB) (12)
通道自注意力机制用于捕获各个通道间的依赖关系,公式如下:
X=softmax(A*A*T) (16)
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练改进。
步骤S3的具体步骤如下:
S31,构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中,y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
S32,计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
S4,利用训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
步骤S4的具体步骤如下:
将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(Mean Pixel Accuracy,MPA)、平均交并比(MeanIntersection over Union,MIoU),观察并评估分割网络的性能。
实施例2
如图3所示,本实施例提供了一种基于实施例1进化混合注意力机制的SAR图像房屋提取方法的系统,该系统具体包括如下模块:
数据获取模块,用于获取SAR图像数据集,并对得到的SAR图像数据集进行预处理,得到实验的数据集;该模块具体为:从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1∶1.5,避免在建筑稀疏地区,房屋与山区混淆。并将数据集按照5∶1的比例分为训练集和测试集。
分割网络构建模块,通过主干网络采集图像特征,并基于进化混合注意力机制,构建SAR图像房屋分割网络。该模块具体为:采用ResNet-50作为主干网络,对输入的SAR图像进行特征提取。并在主干网络中使用基于空间注意力和跨维度交互模型的TripletAttention,这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,公式如下:
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,公式如下:
第三个分支用来捕获高度与宽度间的空间依赖关系,公式如下:
其中χi为第i个分支输入的特征图,为经过逆时针旋转(anti-clockwise)后得到交互结果,为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωvi+c1rand()(pbesti-αi)+c2rand()(gbest-αi) (7)
αi=αi+vi i=1,2,3 (8)
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,我们初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
对主干网络输出的特征图,使用DANet模型,该模型由并行的空间注意力模块和通道注意力模块组成,空间注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。基于双通道自注意力机制的DANet定义如下:
该模型由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,公式如下:
S=softmax(CTB) (12)
通道自注意力机制用于捕获各个通道间的依赖关系,公式如下:
X=softmax(A*A*T) (16)
分割网络训练模块,构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;该模块具体为:构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
分割结果评估模块,利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,并对最终语义分割结果进行评估。该模块具体为:将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(MeanPixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU),观察并评估分割网络的性能。
上述仅是对本发明实施例和原理的说明,对深度学习和SAR图像领域的普通技术人员而言,根据本发明在具体实施中的改变之处,也将视为本发明的保护范围。
Claims (10)
1.基于进化混合注意力机制的SAR图像房屋提取方法,其特征是包括如下步骤:
S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;
S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络;
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练;
S4,利用步骤S3训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
2.如权利要求1所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S1中对数据集的预处理包括:
S11,从数据集中选取以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5;
S12,将数据集按照5:1的比例分为训练集和测试集。
3.如权利要求2所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S2的具体步骤如下:
S21,在主干网络中采用基于空间注意力和跨维度交互模型的三重注意力模型,所述基于空间注意力机制和跨维度交互模型的三重注意力模型定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体步骤如下:
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)]
第二个分支为宽度维度和通道维度间的交互作用,具体步骤如下:
第三个分支用于捕获高度与宽度间的空间依赖关系,具体步骤如下:
其中χi为第i个分支输入的特征图,为经过逆时针旋转(anti-clockwise)后得到交互结果,为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作;
S22,对上述分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,具体步骤如下:
vi=ωvi+c1rand()(pbesti-αi)+c2rand()(gbest-αi)
αi=αi+vi i=1,2,3
初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重;σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图;
S23,对主干网络输出的特征图,采用基于双通道自注意力机制的双注意力网络,所述基于双通道自注意力机制的双注意力网络定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体步骤如下:
S=softmax(CTB)
通道自注意力机制用于捕获各个通道间的依赖关系,具体步骤如下:
X=softmax(A*A*T)
5.如权利要求4所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S4的具体如下:
将步骤S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率、平均交并比,观察并评估分割网络的性能。
6.基于进化混合注意力机制的SAR图像房屋提取系统,其特征是包括如下模块:
数据获取模块:用于获取SAR图像数据集,并对SAR图像数据集进行预处理,得到实验数据集;
分割网络构建模块:通过主干网络采集图像特征,并基于进化混合注意力机制,构建SAR图像房屋分割网络;
分割网络训练模块:构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;
分割结果评估模块:利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,得到最终语义分割结果。
7.如权利要求6所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,数据获取模块中对数据集的预处理具体如下:
从数据集中选取以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5;将数据集按照5:1的比例分为训练集和测试集。
8.如权利要求7所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,分割网络构建模块具体如下:
在主干网络中采用基于空间注意力和跨维度交互模型的三重注意力模型,所述基于空间注意力机制和跨维度交互模型的三重注意力模型定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体如下:
Z-pool(x)=[MaxPool(x),AvgPool(x)]
第二个分支为宽度维度和通道维度间的交互作用,具体如下:
第三个分支用于捕获高度与宽度间的空间依赖关系,具体如下:
对上述分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,具体如下:
vi=ωvi+c1rand()(pbesti-αi)+c2rand()(gbest-αi)
αi=αi+vi i=1,2,3
初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重;σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,w为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图;
对主干网络输出的特征图,采用基于双通道自注意力机制的双注意力网络,所述基于双通道自注意力机制的双注意力网络定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体如下:
S=softmax(CTB)
通道自注意力机制用于捕获各个通道间的依赖关系,具体如下:
X=softmax(A*A*T)
10.如权利要求9所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,分割结果评估模块具体如下:
将数据获取模块中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率、平均交并比,观察并评估分割网络的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211045569.0A CN115393717A (zh) | 2022-08-30 | 2022-08-30 | 基于进化混合注意力机制的sar图像房屋提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211045569.0A CN115393717A (zh) | 2022-08-30 | 2022-08-30 | 基于进化混合注意力机制的sar图像房屋提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393717A true CN115393717A (zh) | 2022-11-25 |
Family
ID=84123577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211045569.0A Pending CN115393717A (zh) | 2022-08-30 | 2022-08-30 | 基于进化混合注意力机制的sar图像房屋提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393717A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019168A (zh) * | 2022-05-30 | 2022-09-06 | 杭州电子科技大学 | 基于混合注意力网络的sar图像水体提取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN111369543A (zh) * | 2020-03-07 | 2020-07-03 | 北京工业大学 | 一种基于双重自注意力模块的快速花粉颗粒检测算法 |
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN112580654A (zh) * | 2020-12-25 | 2021-03-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 遥感图像地物语义分割方法 |
CN113657124A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 |
-
2022
- 2022-08-30 CN CN202211045569.0A patent/CN115393717A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN111369543A (zh) * | 2020-03-07 | 2020-07-03 | 北京工业大学 | 一种基于双重自注意力模块的快速花粉颗粒检测算法 |
CN112580654A (zh) * | 2020-12-25 | 2021-03-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 遥感图像地物语义分割方法 |
CN113657124A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019168A (zh) * | 2022-05-30 | 2022-09-06 | 杭州电子科技大学 | 基于混合注意力网络的sar图像水体提取方法及系统 |
CN115019168B (zh) * | 2022-05-30 | 2024-04-26 | 杭州电子科技大学 | 基于混合注意力网络的sar图像水体提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN110111345B (zh) | 一种基于注意力网络的3d点云分割方法 | |
CN112668494A (zh) | 基于多尺度特征提取的小样本变化检测方法 | |
CN109559297B (zh) | 一种基于三维区域生成网络的肺结节检测的方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN112633140B (zh) | 多光谱遥感图像城中村多类别建筑物语义分割方法及系统 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN113705580B (zh) | 基于深度迁移学习的高光谱图像分类方法 | |
CN114821342B (zh) | 一种遥感影像道路提取方法及系统 | |
CN113392931A (zh) | 基于自监督学习及多任务学习的高光谱开放集分类方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN112733693B (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN114913434B (zh) | 一种基于全局关系推理的高分辨率遥感影像变化检测方法 | |
CN114463492A (zh) | 一种基于深度学习的自适应通道注意力三维重建方法 | |
CN112766223A (zh) | 基于样本挖掘与背景重构的高光谱图像目标检测方法 | |
CN114998688A (zh) | 一种基于YOLOv4改进算法的大视场目标检测方法 | |
CN115393717A (zh) | 基于进化混合注意力机制的sar图像房屋提取方法及系统 | |
Pellis et al. | An image-based deep learning workflow for 3D heritage point cloud semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221125 |