CN115393717A - 基于进化混合注意力机制的sar图像房屋提取方法及系统 - Google Patents

基于进化混合注意力机制的sar图像房屋提取方法及系统 Download PDF

Info

Publication number
CN115393717A
CN115393717A CN202211045569.0A CN202211045569A CN115393717A CN 115393717 A CN115393717 A CN 115393717A CN 202211045569 A CN202211045569 A CN 202211045569A CN 115393717 A CN115393717 A CN 115393717A
Authority
CN
China
Prior art keywords
network
attention mechanism
house
follows
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211045569.0A
Other languages
English (en)
Inventor
周一鸣
滕旭阳
胡楚哲
郭明宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211045569.0A priority Critical patent/CN115393717A/zh
Publication of CN115393717A publication Critical patent/CN115393717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于进化混合注意力机制的SAR图像房屋提取方法及系统,方法包括如下步骤:S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络;S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练;S4,利用步骤S3训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。本发明有利于识别大幅宽的SAR图像,同时可以增强SAR图像中的可辨识房屋特征,削减冗余特征。

Description

基于进化混合注意力机制的SAR图像房屋提取方法及系统
技术领域
本发明属于合成孔径雷达(SAR,Synthetic Aperture Radar)图像检测与分割技术领域,具体涉及一种基于进化混合注意力机制的SAR图像房屋建筑提取方法及系统。
背景技术
目前,在中国城镇化改造的背景下,对于一个地区城市变迁的分析需求日益强烈。SAR图像相较于传统的光学图像,具有成像幅宽大、抗干扰能力强等优点,对于房屋建筑面积的变化情况、人口密度的分析、人口迁徙情况的观察和违章建筑的监督等研究具有重要意义。然而,随着近年SAR图像数据的急速增加,对于SAR图像的识别和分割工作相对落后,因此,对于SAR图像的语义分割、目标识别和对检测结果的分析等方面的研究具有重要意义。
现阶段,基于传统卷积神经网络(Convolutional Neural Network,CNN),可以通过浅层学习的纹理特征和深层学习的语义特征,并通过特征融合,对SAR图像进行初步的目标检测和语义分割。但受成像机制的影响,SAR图像在成像的过程中,房屋建筑由于平台的不稳定导致几何形变,也会由于斜距成像产生透视收缩,此外,房屋还会和有一定高度的地物产生叠掩现象,这些都大大增加了图像信息的提取难度。所以,基于传统的深度学习方法对SAR图像中的建筑进行分割,效果往往不尽如人意。
因此,可以引入注意力机制,利用人类视觉的分析特点,通过扫描仅对重点区域和重点特征进行识别与分析。但目前应用较为广泛的注意力机制对于SAR图像中房屋的识别大多存在一定弊端,压缩和激励网络(Squeeze-and-Excitation Networks,SENet)应用了通道注意力机制,但采用平均池化的方式对特征图进行压缩会导致房屋边缘等特征的丢失;应用空间注意力机制的空间变压器网络(Spatial Transformer Networks,STN)可利用平移不变性聚焦到关键区域进行分析,但同时会丢失图像的全局信息;卷积块注意模块(Convolutional Block Attention Module,CBAM)提出了在SENet后使用空间注意力的方法,来弥补SENet在平均池化时损失的空间特征,但由于两种注意力机制是串行独立操作的,缺乏跨维度的交互操作,所以不适用于大幅宽的SAR图像识别。除此之外,CBAM网络缺乏对于各个局部特征之间依赖性的学习,无法解决SAR图像中房屋几何形变和透视收缩等带来的问题。因此,如何利用不同注意力机制的特点,设计能够克服SAR图像识别难度的进化混合注意力机制网络成为了本领域亟待解决的技术问题。
发明内容
基于现有技术存在的不足,本发明旨在提供一种基于进化混合注意力机制的SAR图像房屋建筑提取方法及系统,其采用基于粒子群算法加权融合的方式进行特征融合,得到关于房屋的语义分割结果。
为实现上述发明目的,本发明采用以下方案:
基于进化混合注意力机制的SAR图像房屋提取方法,包括如下步骤:
S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;本步骤优选采用SARBuD 1.0(GF-3精细模式SAR建筑数据集)数据集。
S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络。本步骤优选采用由16个残差块,49个卷积层组成的ResNet-50为主干网络采集图像特征。
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练改进。
S4,利用训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
进一步,步骤S1中对数据集的预处理包括:
S11,从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5,避免在建筑稀疏地区,房屋与山区混淆。
S12,将数据集按照5:1的比例分为训练集和测试集
进一步,步骤S2的具体步骤如下:
S21,在主干网络中使用基于空间注意力和跨维度交互模型的三重注意力模型(Triplet Attention Module),这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。
上述基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体步骤如下:
Figure BDA0003822262100000021
Figure BDA0003822262100000022
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,具体步骤如下:
Figure BDA0003822262100000031
Figure BDA0003822262100000032
第三个分支用于捕获高度与宽度间的空间依赖关系,具体步骤如下:
Figure BDA0003822262100000033
其中χi为第i个分支输入的特征图,
Figure BDA0003822262100000034
为经过逆时针旋转(anti-clockwise)后得到交互结果,
Figure BDA0003822262100000035
为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
S22,对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωvi+c1rand()(pbestii)+c2rand()(gbest-αi) (7)
αi=αi+vii=1,2,3 (8)
Figure BDA0003822262100000036
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,
Figure BDA0003822262100000037
表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
S23,对主干网络输出的特征图,使用基于双通道自注意力机制的双注意力网络(Dual Attention Network,DANet),该网络由并行的空间自注意力模块和通道自注意力模块组成,空间自注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道自注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。
上述基于双通道自注意力机制的DANet定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体步骤如下:
Figure BDA0003822262100000038
Figure BDA0003822262100000041
S=softmax(CTB) (12)
Figure BDA0003822262100000042
Figure BDA0003822262100000043
其中A为输入的特征图,B、C、D为经过卷积层后得到的特征图,sji为第i个位置对第j个位置的影响,α为尺度参数,初始设置为0,
Figure BDA0003822262100000044
为最后的输出特征图。
通道自注意力机制用于捕获各个通道间的依赖关系,具体步骤如下:
Figure BDA0003822262100000045
X=softmax(A*A*T) (16)
Figure BDA0003822262100000046
Figure BDA0003822262100000047
其中A*为重塑后得到的特征图,xji为第i个通道对第j个通道的影响,β为尺度参数,并初始化为0,
Figure BDA0003822262100000048
为最后的输出特征图。最后将两个分支得到的特征图进行相加融合,得到输出结果。
进一步,S3中的模型训练过程具体如下:
S31,构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
S32,计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
Figure BDA0003822262100000049
其中,
Figure BDA00038222621000000410
Figure BDA00038222621000000411
分别为迭代t次和迭代t+1次后房屋分割网络第i层的参数,η为迭代至第t次时的学习率,Loss为上一步骤计算的损失函数
进一步,S4的具体如下:将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(Mean Pixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU),观察并评估分割网络的性能。
本发明还提供了基于上述进化混合注意力机制的SAR图像房屋提取方法的系统,具体包括如下模块:
数据获取模块,用于获取SAR图像数据集,并对得到的SAR图像进行预处理,得到实验的数据集;
分割网络构建模块,通过主干网络采集图像特征,并基于通过进化的混合注意力机制,构建SAR图像房屋分割网络
分割网络训练模块,构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;
分割结果评估模块,利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,得到最终语义分割结果。
对比于现有技术,本发明的技术效果在于:
(1)本发明采用基于空间注意力和跨维度交互模型的Triplet Attention,解决了CBAM中两注意力模块之间依赖性低的问题,有利于识别大幅宽的SAR图像,同时可以增强SAR图像中的可辨识房屋特征,削减冗余特征。
(2)基于双通道自注意力机制的DANet,弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更能够解决SAR图像中房屋几何形变和透视收缩等带来的问题。
(3)本发明并行使用了多种注意力机制,可对不同注意力机制的特征提取结果进行加权融合。
附图说明
图1为本发明一种优选实施例基于进化混合注意力机制的SAR图像房屋提取方法的流程示意图;
图2为本发明S21中的三重注意力网络和S23中的双通道自注意网络示意图;
图3为本发明一种优选实施例基于进化混合注意力机制的SAR图像房屋提取系统框图。
具体实施方式
下面将结合附图和优选实施例阐述本发明的具体实施过程。
实施例1:
如图1-2所示,本实施例提供了一种基于进化混合注意力机制的SAR图像房屋提取方法,具体步骤如下:
S1,采用SARBuD 1.0(GF-3精细模式SAR建筑数据集)数据集,对数据集进行预处理,得到实验数据集。
步骤S1具体包括如下步骤:
从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1∶1.5,避免在建筑稀疏地区,房屋与山区混淆;并将数据集按照5∶1的比例分为训练集和测试集。
S2,采用由16个残差块,49个卷积层组成的ResNet-50为主干网络采集图像特征,并基于进化混合注意力机制构建房屋建筑分割网络。
步骤S2具体包括如下步骤:
S21,在ResNet-50主干网络中使用基于空间注意力和跨维度交互模型的TripletAttention,这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,公式如下:
Figure BDA0003822262100000061
Figure BDA0003822262100000062
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,公式如下:
Figure BDA0003822262100000063
Figure BDA0003822262100000064
第三个分支用于捕获高度与宽度间的空间依赖关系,公式如下:
Figure BDA0003822262100000065
其中χi为第i个分支输入的特征图,
Figure BDA0003822262100000071
为经过逆时针旋转(anti-clockwise)后得到交互结果,
Figure BDA0003822262100000072
为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
S22,对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωυi+c1rand()(pbestii)+c2rand()(gbest-αi) (7)
αi=αi+vii=1,2,3 (8)
Figure BDA0003822262100000073
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,我们初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,
Figure BDA0003822262100000074
表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
S23,对主干网络输出的特征图,使用DANet模型,该模型的空间自注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。
上述基于双通道自注意力机制的DANet定义如下:
该模型由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,公式如下:
Figure BDA0003822262100000075
Figure BDA0003822262100000076
S=softmax(CTB) (12)
Figure BDA0003822262100000077
Figure BDA0003822262100000078
其中A为输入的特征图,B、C、D为经过卷积层后得到的特征图,sji为第i个位置对第j个位置的影响,α为尺度参数,初始设置为0,
Figure BDA0003822262100000081
为最后的输出特征图。
通道自注意力机制用于捕获各个通道间的依赖关系,公式如下:
Figure BDA0003822262100000082
X=softmax(A*A*T) (16)
Figure BDA0003822262100000083
Figure BDA0003822262100000084
其中A*为重塑后得到的特征图,xji为第i个通道对第j个通道的影响,β为尺度参数,并初始化为0,
Figure BDA0003822262100000085
为最后的输出特征图。最后将两个分支的得到的特征图进行相加融合,得到最终的输出结果。
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练改进。
步骤S3的具体步骤如下:
S31,构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中,y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
S32,计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
Figure BDA0003822262100000086
其中,
Figure BDA0003822262100000087
Figure BDA0003822262100000088
分别为迭代t次和迭代t+1次后房屋分割网络第i层的参数,η为迭代至第t次时的学习率,Loss为上一步骤计算的损失函数。
S4,利用训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
步骤S4的具体步骤如下:
将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(Mean Pixel Accuracy,MPA)、平均交并比(MeanIntersection over Union,MIoU),观察并评估分割网络的性能。
实施例2
如图3所示,本实施例提供了一种基于实施例1进化混合注意力机制的SAR图像房屋提取方法的系统,该系统具体包括如下模块:
数据获取模块,用于获取SAR图像数据集,并对得到的SAR图像数据集进行预处理,得到实验的数据集;该模块具体为:从数据集中选取一定比例的以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1∶1.5,避免在建筑稀疏地区,房屋与山区混淆。并将数据集按照5∶1的比例分为训练集和测试集。
分割网络构建模块,通过主干网络采集图像特征,并基于进化混合注意力机制,构建SAR图像房屋分割网络。该模块具体为:采用ResNet-50作为主干网络,对输入的SAR图像进行特征提取。并在主干网络中使用基于空间注意力和跨维度交互模型的TripletAttention,这个步骤对空间维度和通道维度进行了跨维度交互,加强了两个维度之间的依赖性。与CBAM模型相比,可以有效解决SENet中MLP模块造成的通道信息丢失问题,同时,各个维度的交互作用,可以解决CBAM中两注意力模块之间依赖性低的问题。适用于大幅宽SAR图像的识别,同时可以增强SAR图像中的可辨识房屋特征,并忽略冗余特征。基于空间注意力机制和跨维度交互模型的Triplet Attention定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,公式如下:
Figure BDA0003822262100000091
Figure BDA0003822262100000092
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)] (3)
第二个分支为宽度维度和通道维度间的交互作用,公式如下:
Figure BDA0003822262100000093
Figure BDA0003822262100000094
第三个分支用来捕获高度与宽度间的空间依赖关系,公式如下:
Figure BDA0003822262100000095
其中χi为第i个分支输入的特征图,
Figure BDA0003822262100000096
为经过逆时针旋转(anti-clockwise)后得到交互结果,
Figure BDA0003822262100000101
为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作。
对上述各分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,可避免TripletAttention模型中各特征图平均相加可能带来的弊端。具体步骤如下:
vi=ωvi+c1rand()(pbestii)+c2rand()(gbest-αi) (7)
αi=αi+vi i=1,2,3 (8)
Figure BDA0003822262100000102
该过程适应度函数为网络的损失函数,由于整个网络的计算量较大,我们初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重。σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,
Figure BDA0003822262100000103
表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图。
对主干网络输出的特征图,使用DANet模型,该模型由并行的空间注意力模块和通道注意力模块组成,空间注意力模块可将特征图中相似的特征进行关联,捕获网络中局部特征的长距离关系;通道注意力模块可加强不同通道间的相互依赖关系。此步骤弥补了CBAM模型缺乏特征关联的不足,加强了相似特征间的关联性,更有利于解决SAR图像中房屋几何形变和透视收缩等带来的问题。基于双通道自注意力机制的DANet定义如下:
该模型由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,公式如下:
Figure BDA0003822262100000104
Figure BDA0003822262100000105
S=softmax(CTB) (12)
Figure BDA0003822262100000106
Figure BDA0003822262100000107
其中A为输入的特征图,B、C、D为经过卷积层后得到的特征图,sji为第i个位置对第j个位置的影响,α为尺度参数,初始设置为0,
Figure BDA0003822262100000111
为最后的输出特征图。
通道自注意力机制用于捕获各个通道间的依赖关系,公式如下:
Figure BDA0003822262100000112
X=softmax(A*A*T) (16)
Figure BDA0003822262100000113
Figure BDA0003822262100000114
其中A*为重塑后得到的特征图,xji为第i个通道对第j个通道的影响,β为尺度参数,并初始化为0,
Figure BDA0003822262100000115
为最后的输出特征图。最后将两个分支的得到的特征图进行相加融合,得到最终的输出结果。
分割网络训练模块,构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;该模块具体为:构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)] (19)
其中y为样本标签,房屋建筑为1,背景为0。p表示样本被预测为房屋建筑的概率。
计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
Figure BDA0003822262100000116
其中,
Figure BDA0003822262100000117
Figure BDA0003822262100000118
分别为迭代t次和迭代t+1次后房屋分割网络第i层的参数,η为迭代至第t次时的学习率,Loss为上一步骤计算的损失函数
分割结果评估模块,利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,并对最终语义分割结果进行评估。该模块具体为:将S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率(MeanPixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU),观察并评估分割网络的性能。
上述仅是对本发明实施例和原理的说明,对深度学习和SAR图像领域的普通技术人员而言,根据本发明在具体实施中的改变之处,也将视为本发明的保护范围。

Claims (10)

1.基于进化混合注意力机制的SAR图像房屋提取方法,其特征是包括如下步骤:
S1,获取SAR图像数据集,对SAR图像数据集进行预处理,得到实验数据集;
S2,通过主干网络采集图像特征,并基于进化混合注意力机制构建房屋分割网络;
S3,构建损失函数,采用梯度下降和反向传播法,对进化混合注意力机制网络进行训练;
S4,利用步骤S3训练完毕的进化混合注意力机制网络对无标签图像进行房屋分割,并得到最终语义分割结果。
2.如权利要求1所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S1中对数据集的预处理包括:
S11,从数据集中选取以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5;
S12,将数据集按照5:1的比例分为训练集和测试集。
3.如权利要求2所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S2的具体步骤如下:
S21,在主干网络中采用基于空间注意力和跨维度交互模型的三重注意力模型,所述基于空间注意力机制和跨维度交互模型的三重注意力模型定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体步骤如下:
Figure FDA0003822262090000011
Figure FDA0003822262090000012
Z-pool(χ)=[MaxPool(χ),AvgPool(χ)]
第二个分支为宽度维度和通道维度间的交互作用,具体步骤如下:
Figure FDA0003822262090000013
Figure FDA0003822262090000014
第三个分支用于捕获高度与宽度间的空间依赖关系,具体步骤如下:
Figure FDA0003822262090000015
其中χi为第i个分支输入的特征图,
Figure FDA0003822262090000016
为经过逆时针旋转(anti-clockwise)后得到交互结果,
Figure FDA0003822262090000017
为池化后的输出结果,C、H、W分别为特征图的通道数,高度和宽度,MaxPool(·)为最大池化操作,AvgPool(·)为平均池化操作;
S22,对上述分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,具体步骤如下:
vi=ωvi+c1rand()(pbestii)+c2rand()(gbest-αi)
αi=αi+vi i=1,2,3
Figure FDA0003822262090000021
初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重;σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,ω为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,
Figure FDA0003822262090000022
表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图;
S23,对主干网络输出的特征图,采用基于双通道自注意力机制的双注意力网络,所述基于双通道自注意力机制的双注意力网络定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体步骤如下:
Figure FDA0003822262090000023
Figure FDA0003822262090000024
S=softmax(CTB)
Figure FDA0003822262090000025
Figure FDA0003822262090000026
其中A为输入的特征图,B、C、D为经过卷积层后得到的特征图,sji为第i个位置对第j个位置的影响,α为尺度参数,初始设置为0,
Figure FDA0003822262090000027
为最后的输出特征图;
通道自注意力机制用于捕获各个通道间的依赖关系,具体步骤如下:
Figure FDA0003822262090000028
X=softmax(A*A*T)
Figure FDA0003822262090000029
Figure FDA0003822262090000031
其中A*为重塑后得到的特征图,xji为第i个通道对第j个通道的影响,β为尺度参数,并初始化为0,
Figure FDA0003822262090000032
为最后的输出特征图;最后将两个分支得到的特征图进行相加融合,得到输出结果。
4.如权利要求3所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S3中的训练过程具体如下:
S31,构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)]
其中,y为样本标签,房屋建筑为1,背景为0;p表示样本被预测为房屋建筑的概率;
S32,计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
Figure FDA0003822262090000033
其中,
Figure FDA0003822262090000034
Figure FDA0003822262090000035
分别为迭代t次和迭代t+1次后房屋分割网络第i层的参数,η为迭代至第t次时的学习率,Loss为上一步骤计算的损失函数。
5.如权利要求4所述基于进化混合注意力机制的SAR图像房屋提取方法,其特征是,步骤S4的具体如下:
将步骤S1中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率、平均交并比,观察并评估分割网络的性能。
6.基于进化混合注意力机制的SAR图像房屋提取系统,其特征是包括如下模块:
数据获取模块:用于获取SAR图像数据集,并对SAR图像数据集进行预处理,得到实验数据集;
分割网络构建模块:通过主干网络采集图像特征,并基于进化混合注意力机制,构建SAR图像房屋分割网络;
分割网络训练模块:构建损失函数,利用梯度下降和反向传播法对进化混合注意力机制网络进行训练;
分割结果评估模块:利用训练完毕的进化混合注意力机制网络对无标签的图像进行房屋分割,得到最终语义分割结果。
7.如权利要求6所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,数据获取模块中对数据集的预处理具体如下:
从数据集中选取以地貌特征为主的图像作为负样本,用于学习地形特征,正负样本比例为1:1.5;将数据集按照5:1的比例分为训练集和测试集。
8.如权利要求7所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,分割网络构建模块具体如下:
在主干网络中采用基于空间注意力和跨维度交互模型的三重注意力模型,所述基于空间注意力机制和跨维度交互模型的三重注意力模型定义如下:
该模型分三个分支模块并行操作,其中第一个分支为高度维度和通道维度间的交互作用,具体如下:
Figure FDA0003822262090000041
Figure FDA0003822262090000042
Z-pool(x)=[MaxPool(x),AvgPool(x)]
第二个分支为宽度维度和通道维度间的交互作用,具体如下:
Figure FDA0003822262090000043
Figure FDA0003822262090000044
第三个分支用于捕获高度与宽度间的空间依赖关系,具体如下:
Figure FDA0003822262090000045
对上述分支得到的特征图采用基于粒子群算法的权重计算方式,进行加权融合,具体如下:
vi=ωvi+c1rand()(pbestii)+c2rand()(gbest-αi)
αi=αi+vi i=1,2,3
Figure FDA0003822262090000046
初始化假设种群粒子个数为10,粒子速度为0到2间的随机数,其中速度小于1表示削弱该特征图的权重,大于1表示增强改特征图的权重;σ为sigmoid函数,用于生成注意权值,f1,f2,f3为三个分支中卷积核大小为k×k的卷积层,α1,α2,α3为由粒子群算法得到的权重,w为惯性因子,rand()为0到1间的随机数,pbest为当前粒子的极值,gbest为全局最优值,
Figure FDA0003822262090000047
表示将特征图顺时针旋转90°恢复至原始输入状态,y为输出特征图;
对主干网络输出的特征图,采用基于双通道自注意力机制的双注意力网络,所述基于双通道自注意力机制的双注意力网络定义如下:
该网络由并行的空间自注意力机制和通道自注意力机制组成,其中空间自注意力机制用于捕获特征间的远程关联,具体如下:
Figure FDA0003822262090000051
Figure FDA0003822262090000052
S=softmax(CTB)
Figure FDA0003822262090000053
Figure FDA0003822262090000054
其中A为输入的特征图,B、C、D为经过卷积层后得到的特征图,sji为第i个位置对第j个位置的影响,α为尺度参数,初始设置为0,
Figure FDA0003822262090000055
为最后的输出特征图;
通道自注意力机制用于捕获各个通道间的依赖关系,具体如下:
Figure FDA0003822262090000056
X=softmax(A*A*T)
Figure FDA0003822262090000057
Figure FDA0003822262090000058
其中A*为重塑后得到的特征图,xji为第i个通道对第j个通道的影响,β为尺度参数,并初始化为0,
Figure FDA0003822262090000059
为最后的输出特征图;最后将两个分支得到的特征图进行相加融合,得到输出结果。
9.如权利要求8所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,分割网络训练模块中的训练过程具体如下:
构建交叉熵损失函数,逐像素计算交叉熵损失,将预测结果与目标向量比较,计算公式如下:
Loss=-[y·log(p)+(1-y)·log(1-p)]
其中,y为样本标签,房屋建筑为1,背景为0;p表示样本被预测为房屋建筑的概率;
计算损失函数在房屋分割网络中各层的梯度,采用梯度下降和反向传播算法求解网络参数,参数更新公式如下:
Figure FDA0003822262090000061
其中,
Figure FDA0003822262090000062
Figure FDA0003822262090000063
分别为迭代t次和迭代t+1次后房屋分割网络第i层的参数,η为迭代至第t次时的学习率,Loss为损失函数。
10.如权利要求9所述基于进化混合注意力机制的SAR图像房屋提取系统,其特征是,分割结果评估模块具体如下:
将数据获取模块中的测试集输入训练完毕的网络中,得到各样本的房屋分割结果,并计算分割结果的类别平均像素准确率、平均交并比,观察并评估分割网络的性能。
CN202211045569.0A 2022-08-30 2022-08-30 基于进化混合注意力机制的sar图像房屋提取方法及系统 Pending CN115393717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045569.0A CN115393717A (zh) 2022-08-30 2022-08-30 基于进化混合注意力机制的sar图像房屋提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045569.0A CN115393717A (zh) 2022-08-30 2022-08-30 基于进化混合注意力机制的sar图像房屋提取方法及系统

Publications (1)

Publication Number Publication Date
CN115393717A true CN115393717A (zh) 2022-11-25

Family

ID=84123577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045569.0A Pending CN115393717A (zh) 2022-08-30 2022-08-30 基于进化混合注意力机制的sar图像房屋提取方法及系统

Country Status (1)

Country Link
CN (1) CN115393717A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019168A (zh) * 2022-05-30 2022-09-06 杭州电子科技大学 基于混合注意力网络的sar图像水体提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
CN111369543A (zh) * 2020-03-07 2020-07-03 北京工业大学 一种基于双重自注意力模块的快速花粉颗粒检测算法
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN112580654A (zh) * 2020-12-25 2021-03-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 遥感图像地物语义分割方法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN111369543A (zh) * 2020-03-07 2020-07-03 北京工业大学 一种基于双重自注意力模块的快速花粉颗粒检测算法
CN112580654A (zh) * 2020-12-25 2021-03-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 遥感图像地物语义分割方法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019168A (zh) * 2022-05-30 2022-09-06 杭州电子科技大学 基于混合注意力网络的sar图像水体提取方法及系统
CN115019168B (zh) * 2022-05-30 2024-04-26 杭州电子科技大学 基于混合注意力网络的sar图像水体提取方法及系统

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN110111345B (zh) 一种基于注意力网络的3d点云分割方法
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN109559297B (zh) 一种基于三维区域生成网络的肺结节检测的方法
CN111899172A (zh) 一种面向遥感应用场景的车辆目标检测方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112633140B (zh) 多光谱遥感图像城中村多类别建筑物语义分割方法及系统
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN113705580B (zh) 基于深度迁移学习的高光谱图像分类方法
CN114821342B (zh) 一种遥感影像道路提取方法及系统
CN113392931A (zh) 基于自监督学习及多任务学习的高光谱开放集分类方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN114913434B (zh) 一种基于全局关系推理的高分辨率遥感影像变化检测方法
CN114463492A (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN112766223A (zh) 基于样本挖掘与背景重构的高光谱图像目标检测方法
CN114998688A (zh) 一种基于YOLOv4改进算法的大视场目标检测方法
CN115393717A (zh) 基于进化混合注意力机制的sar图像房屋提取方法及系统
Pellis et al. An image-based deep learning workflow for 3D heritage point cloud semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221125