CN117612024A - 一种基于多尺度注意力的遥感图像屋顶识别方法及系统 - Google Patents
一种基于多尺度注意力的遥感图像屋顶识别方法及系统 Download PDFInfo
- Publication number
- CN117612024A CN117612024A CN202311576224.2A CN202311576224A CN117612024A CN 117612024 A CN117612024 A CN 117612024A CN 202311576224 A CN202311576224 A CN 202311576224A CN 117612024 A CN117612024 A CN 117612024A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sensing image
- image
- attention
- roof
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000011084 recovery Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 239000000428 dust Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度注意力的遥感图像屋顶识别方法及系统,包括以下步骤:步骤(1):对遥感图像进行数据预处理,获取标准化图像数据;步骤(2):基于标准化图像数据,构建主干网络提取遥感图像的特征;步骤(3):基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;步骤(4):基于步骤(1)‑(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。本发明通过构建遥感图像屋顶识别模型,提高屋顶检测的准确率。
Description
技术领域
本发明涉及遥感图像屋顶识别网络,特别是一种基于多尺度注意力的遥感图像屋顶识别方法及系统。
背景技术
建筑物是高分辨率卫星图像中一个突出的人造特征。检测建筑物屋顶的数量、类型和形状是进行各种其他决策任务的先决程序。例如,评估农村地区的屋顶是评估太阳能发电潜力和太阳能光伏系统规模的一项重要任务。但由于航空和卫星图像的质量、照明条件和分辨率存在差异,该项任务非常具有挑战性。此外,屋顶难以被发现的一个重要原因是,它们具有复杂的形状、大小以及颜色,很容易与尘土和未铺砌的道路等特征混淆。
利用遥感技术对建筑物进行自动检测已被广泛认为是一种有效的方法,该类方法能够及时提供大规模的各类建筑物的有效数据。现有的主流方法是通过结合各种图像分割技术来识别真实屋顶类型。机器学习方法在近年来的研究中得到了广泛的应用,例如支持向量机SVM、最大似然分类器MLC和随机森林RF等。然而,随着遥感观测技术的发展,这些方法往往难以用于现有的更复杂、更高维的图像数据上。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
本发明的技术方案是:一种基于多尺度注意力的遥感图像屋顶识别方法,包括以下步骤:
步骤(1):对遥感图像进行数据预处理,获取标准化图像数据;
步骤(2):基于标准化图像数据,构建主干网络提取遥感图像的特征;
步骤(3):基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;
步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
步骤(1)中:遥感图像包括若干组样本,每组样本包含一幅卫星航拍图像和对应的建筑屋顶标签图;
将每组样本的图像和对应的标签图裁剪成512×512像素大小,采用随机水平翻转、随机竖直翻转和随机旋转操作进行数据增强,并对图像进行归一化,将像素值缩放到0到1之间。
步骤(2)中:构建ResNet34作为主干网络,ResNet34整体架构包括连续的五个阶段,第一阶段采用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4倍快速下采样,后四个阶段包括四个残差层,用于逐层提取图像特征。
步骤(3)中:获取后四个阶段所提取到的图像特征,分别表示为C2、C3、C4和C5;基于后四个阶段的特征表示,构建空间注意力单元、高频特征单元以及多尺度交互单元。
所述空间注意力单元的数学表达式公式(1)所示:
Y=X⊙σ(Conv3(MP(X)||AP(X))) (1)
其中,X表示输入特征,Y表示输出特征,MP和AP分别表示最大池化操作和平均池化操作,||表示Concat操作,Conv3表示3×3卷积,σ表示Sigmoid激活函数,⊙表示矩阵哈达玛积。
所述高频特征单元的数学表达式如公式(2)-(4)所示:
Xe=Conv3(X) (2)
Xd=Xe-Up(MHSA(AP(Xe))) (3)
Y=Conv3(Xe||Xd) (4)
其中,X表示输入特征,Y表示输出特征,Xe和Xd分别表示浅层特征表示和高频特征表示,Conv3表示3×3卷积,AP表示平均池化操作,MHSA表示多头自注意力机制,Up表示上采样操作,||表示Concat操作。
所述多尺度交互单元的数学表达式如公式(5)-(6)所示:
Xt=Cp(Conv1(XC3),Conv1(XC4),Conv1(XC5)) (5)
YC3,YC4,YC5=Dcp(MHSA(Xt)) (6)
其中,Xt表示耦合特征,XC3,XC4,XC5分别表示多尺度交互单元的输入特征,来源于主干网络ResNet34后三个阶段的输出特征,Conv1表示1×1卷积,YC3,YC4,YC5分别表示三种输出特征,Cp和Dcp分别表示序列耦合和序列解耦操作,MHSA表示多头自注意力机制。
所述MHSA利用自注意力机制通过计算任意成对像素之间的关系,捕获图像全局空间特征关系,其数学表达式如公式(7)-(8)所示:
MHSAm(Q,K,V)=W(SA1||SA2||...||SAm) (8)
其中,MHSAm表示具有m个注意力头的多头自注意力,SAk表示第k个自注意力头,Q,K,V分别表示查询、键和值,d表示特征维度,ξ表示Softmax激活函数,W表示线性层,||表示Concat操作。
步骤(4)中,训练过程采用Adam优化器进行梯度更新,权重衰减系数为0.0001,学习率为0.001,交叉熵损失作为损失函数。
步骤(5)中,F1分数和交并比的数学表达式如公式(10)-(11)所示:
其中,F1表示F1分数,IoU表示交并比,Precision和Recall分别表示精确率和召回率,TP,FP,FN分别表示真阳,假阳和假阴。
一种基于多尺度注意力的遥感图像屋顶识别系统,包括:
预处理模块,用于对遥感图像进行数据预处理,获取标准化图像数据;
提取模块,用于基于标准化图像数据,构建主干网络提取遥感图像的特征;
构建模块,用于基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;
训练模块,用于基于预处理模块、提取模块和构建模块形成遥感图像屋顶识别模型,并利用数据集训练模型;
评估模块,用于基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
本发明在工作中,首先,对遥感图像进行预处理;其次,利用ResNet34对遥感图像进行特征提取;然后采用U型结构进行图像恢复,从而实现构建遥感图像屋顶识别模型。通过引入空间注意力单元,在抑制重要性相对较低的特征的同时,使得模型更加关注更具判别性的特征;通过高频特征单元,保留原图中的细节特征;通过多尺度交互单元,充分地捕获不同尺度的特征间的互补关系,使得模型能够有效识别出各种尺度的建筑屋顶。本发明提高了屋顶检测的准确率。
附图说明
图1为本发明的方法流程图;
图2为本发明中模型的框架示意图;
图3为空间注意力单元的结构示意图;
图4为高频特征单元的结构示意图;
图5为多尺度交互单元的结构示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
本发明如图1-5所示,一种基于多尺度注意力的遥感图像屋顶识别方法,包括以下步骤:
步骤(1):对遥感图像进行数据预处理,获取标准化图像数据。由于神经网络对数据分布非常敏感,因此在训练模型前需要对原始数据进行数据增强及标准化操作。每组样本包含一幅卫星航拍图像和对应的建筑屋顶标签图。将每组样本的图像和对应的标签图裁剪成512×512像素大小,采用随机水平翻转、随机竖直翻转和随机旋转操作进行数据增强,以增加数据的多样性和鲁棒性,并对图像进行归一化,将像素值缩放到0到1之间,确保更好的处理能力。
由于屋顶数据集具有复杂形状、颜色、大小等的特点,很容易与尘土和未铺砌的道路等特征混淆。本发明首先利用数据增强方式扩充数据和提高后续模型训练的泛化能力,再通过归一化将待处理的原始图像转换成相应的标准形式。Z-score基于原始数据的均值(mean)和标准差(standard deviation)进行数据的归一化,如公式(1)所示:
其意义为数值距离均值有几个标准差,当μ(Z)=0,σ(Z)=1,即均值为0,标准差为1,则表示经过处理后的数据符合标准正态分布。
步骤(2):从步骤(1)获取标准化图像数据;构建ResNet34作为主干网络以提取遥感图像的特征;ResNet34整体架构由连续的五个阶段组成,第一阶段采用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4×快速下采样,后四个阶段主要由残差层构成,用于进一步地逐层提取图像特征,特征每经过一个阶段,其尺度大小都会缩小一半,通道数都会增大一倍,以此捕获更具辨别性的抽象特征;
具体包括:
步骤(2.1):ResNet34是一种经典的深度卷积神经网络结构,用于提取图像的特征表示。ResNet3中的卷积核权值共享使得其在非线性问题(如目标检测、图像分割等)上能够取得优异的表现。在本发明中,首先利用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4倍快速下采样,以减小图像尺寸。将输出特征馈送入步骤(2.2)。
步骤(2.2):从步骤(2.1)中获取屋顶图像的空间特征。利用由残差层构成的后四个阶段,进一步逐层提取图像特征,如图2所示。
步骤(2.3):从步骤(2.2)中获取优化后的空间特征,进一步处理和图像恢复操作。本发明使用三个空间注意力单元来排除背景噪声,使模型更加关注感兴趣的建筑屋顶。空间注意力单元通过池化操作、卷积操作和Sigmoid激活函数来实现。
步骤(2.4):从步骤(2.3)中获取的优化特征,使用一个U型结构来捕获图像的细节信息,解决下采样过程中信息丢失的问题。高频特征单元结合了平均池化操作、自注意力机制和差分操作,用于提取高频特征表示。
步骤(3):获取步骤(2)后四个阶段所提取到的图像特征,分别表示为C2、C3、C4和C5;基于四个阶段的特征表示,构建空间注意力单元、高频特征单元以及多尺度交互单元对其进行处理,如图2所示;采用U型结构对图像进行逐层的上采样恢复;
为了实现灵活和通用的模型,首先利用ResNet34对遥感图像进行特征提取,然后采用U型结构进行图像恢复。
步骤(3.1):搭建空间注意力单元;遥感图像中包含诸多背景噪声,例如尘土,未铺砌的道路等,这些噪声往往会使得模型难以分辨出建筑屋顶,空间注意力单元能够利用空间注意力机制排除背景噪声的干扰,从而使得模型更加关注于所感兴趣的建筑屋顶,如图3所示,其数学表达式如公式(2)所示:
Y=X⊙σ(Conv3(MP(X)||AP(X))) (2)
其中,X表示输入特征,Y表示输出特征,MP和AP分别表示最大池化操作和平均池化操作,||表示Concat操作,Conv3表示3×3卷积,σ表示Sigmoid激活函数,⊙表示矩阵哈达玛积;
(3.2)搭建高频特征单元;高频特征单元是一种高频感知模块,结合平均池化操作,自注意力机制以及差分操作,它能够有效地捕获到图像特征的细节信息表示,并进一步地输入到图像恢复的过程中,从而解决图像在下采样过程中的信息丢失问题,如图4所示,其数学表达式如公式(3)-(5)所示:
Xe=Conv3(X) (3)
Xd=Xe-Up(MHSA(AP(Xe))) (4)
Y=Conv3(Xe||Xd) (5)
其中,X表示输入特征,Y表示输出特征,Xe和Xd分别表示浅层特征表示和高频特征表示,Conv3表示3×3卷积,AP表示平均池化操作,MHSA表示多头自注意力机制,Up表示上采样操作,||表示Concat操作;MHSA利用自注意力机制通过计算任意成对像素之间的关系,能够充分地捕获图像全局空间特征关系,其数学表达式如公式(6)-(7)所示:
MHSAm(Q,K,V)=W(SA1||SA2||...||SAm) (7)
其中,MHSAm表示具有m个注意力头的多头自注意力,SAk表示第k个自注意力头,Q,K,V分别表示查询、键和值,d表示特征维度,ξ表示Softmax激活函数,W表示线性层,||表示Concat操作;
(3.3)搭建多尺度交互单元;遥感图像中包含的建筑物尺度差异很大,单一尺度的感受野难以充分地捕获多尺度屋顶特征;多尺度交互单元利用自注意力机制对不同尺度大小的特征图同时进行建模,并充分地进行特征交互,以有效地解决建筑屋顶的多尺度建模问题,如图5所示,其数学表达式如公式(8)-(9)所示:
Xt=Cp(Conv1(XC3),Conv1(XC4),Conv1(XC5)) (8)
YC3,YC4,YC5=Dcp(MHSA(Xt)) (9)
其中,Xt表示耦合特征,YC3,YC4,YC5分别表示多尺度交互单元的输入特征,其来源于主干网络ResNet34后三个阶段的输出特征,Conv1表示1×1卷积,YC3,YC4,YC5分别表示三种输出特征,Cp和Dcp分别表示序列耦合和序列解耦操作,MHSA表示多头自注意力机制;
为了使模型更有效地关注建筑屋顶,提高模型的预测准确率,本发明在上采样的过程中提出空间注意力单元,在抑制重要性相对较低的特征的同时,使得模型更加关注更具判别性的特征。
鉴于图像在下采样的过程中易产生信息丢失的现象,本发明提出一种高频特征单元,以尽可能地保留原图中的细节特征。
鉴于建筑物屋顶形状大小各异,本发明还提出一种多尺度交互单元,充分地捕获不同尺度的特征间的互补关系,使得模型能够有效识别出各种尺度的建筑屋顶。
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用遥感图像训练模型;在本发明中,采用马萨诸塞州建筑物数据集进行实验,模型基于Pytorch框架进行搭建,在GeForce RTX 3090GPU上进行训练,配备有英特尔i5处理器,64GB RAM和Ubuntu系统;训练过程采用Adam优化器进行梯度更新,权重衰减设置为0.0001,即向损失函数中加入系数为0.0001的正则化项以防止参数过拟合现象,学习率设置为0.001,使得模型参数能够在一定时间内收敛到局部最优值,损失函数采用交叉熵损失,用于约束模型参数的学习过程。
步骤(5):基于F1分数(F1)和交并比(IoU)两个评价指标对模型性能进行评估,其数学表达式如公式(10)-(11)所示:
其中,Precision和Recall分别表示精确率和召回率,TP,FP,FN分别表示真阳,假阳和假阴。F1值越高,模型的性能越好。交并比反映标注框与预测框的重合程度,用于衡量预测框的正确程度,IoU越高,模型的性能越好。
一种基于多尺度注意力的遥感图像屋顶识别系统,包括:
预处理模块,用于对遥感图像进行数据预处理,获取标准化图像数据;
提取模块,用于基于标准化图像数据,构建主干网络提取遥感图像的特征;
构建模块,用于基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;
训练模块,用于基于预处理模块、提取模块和构建模块形成遥感图像屋顶识别模型,并利用数据集训练模型;
评估模块,用于基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
和现有的遥感图像屋顶识别方法相比,本发明中的模型最终预测准确率有了较大的提升。由于神经网络对数据分布较为敏感,因此首先利用基于数据增强和归一化变换的数据预处理操作对原始数据进行数据标准化处理。其次,空间注意力单元抑制重要性相对较低的特征的同时,使模型更加关注更具判别性的特征;而高频特征单元负责保留原图中的细节特征;多尺度交互单元能够充分地捕获不同尺度的特征间的互补关系,最终经过预测层输出各种尺度的建筑屋顶。通过利用F1和IoU两个评价指标对模型进行性能评估,本发明的基于多尺度注意力的遥感图像屋顶识别方法明显优于现有的算法。
以上仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,包括以下步骤:
步骤(1):对遥感图像进行数据预处理,获取标准化图像数据;
步骤(2):基于标准化图像数据,构建主干网络,提取遥感图像的特征;
步骤(3):基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;
步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
2.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
步骤(1)中:遥感图像包括若干组样本,每组样本包含一幅卫星航拍图像和对应的建筑屋顶标签图;
将每组样本的图像和对应的标签图裁剪成512×512像素大小,采用随机水平翻转、随机竖直翻转和随机旋转操作进行数据增强,并对图像进行归一化,将像素值缩放到0到1之间。
3.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
步骤(2)中:构建ResNet34作为主干网络,ResNet34整体架构包括连续的五个阶段,第一阶段采用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4倍快速下采样,后四个阶段包括四个残差层,用于逐层提取图像特征。
4.根据权利要求3所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
步骤(3)中:获取后四个阶段所提取到的图像特征,分别表示为C2、C3、C4和C5;基于后四个阶段的特征表示,构建空间注意力单元、高频特征单元以及多尺度交互单元。
5.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
所述空间注意力单元的数学表达式公式(1)所示:
Y=X⊙σ(Conv3(MP(X)||AP(X))) (1)
其中,X表示输入特征,Y表示输出特征,MP和AP分别表示最大池化操作和平均池化操作,||表示Concat操作,Conv3表示3×3卷积,σ表示Sigmoid激活函数,⊙表示矩阵哈达玛积。
6.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
所述高频特征单元的数学表达式如公式(2)-(4)所示:
Xe=Conv3(X) (2)
Xd=Xe-Up(MHSA(AP(Xe))) (3)
Y=Conv3(Xe||Xd) (4)
其中,X表示输入特征,Y表示输出特征,Xe和Xd分别表示浅层特征表示和高频特征表示,Conv3表示3×3卷积,AP表示平均池化操作,MHSA表示多头自注意力机制,Up表示上采样操作,||表示Concat操作。
7.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
所述多尺度交互单元的数学表达式如公式(5)-(6)所示:
Xt=Cp(Conv1(XC3),Conv1(XC4),Conv1(XC5)) (5)
YC3,YC4,YC5=Dcp(MHSA(Xt)) (6)
其中,Xt表示耦合特征,XC3,XC4,XC5分别表示多尺度交互单元的输入特征,来源于主干网络ResNet34后三个阶段的输出特征,Conv1表示1×1卷积,YC3,YC4,YC5分别表示三种输出特征,Cp和Dcp分别表示序列耦合和序列解耦操作,MHSA表示多头自注意力机制。
8.根据权利要求6或7所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
所述MHSA利用自注意力机制通过计算任意成对像素之间的关系,捕获图像全局空间特征关系,其数学表达式如公式(7)-(8)所示:
MHSAm(Q,K,V)=W(SA1||SA2||...||sAm) (8)
其中,MHSAm表示具有m个注意力头的多头自注意力,SAk表示第k个自注意力头,Q,K,V分别表示查询、键和值,d表示特征维度,ξ表示Softmax激活函数,W表示线性层,||表示Concat操作。
9.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
步骤(4)中,训练过程采用Adam优化器进行梯度更新,权重衰减系数为0.0001,学习率为0.001,交叉熵损失作为损失函数。
10.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法,其特征在于,
步骤(5)中,F1分数和交并比的数学表达式如公式(10)-(11)所示:
其中,F1表示F1分数,IoU表示交并比,Precision和Recall分别表示精确率和召回率,TP,FP,FN分别表示真阳,假阳和假阴。
11.一种基于多尺度注意力的遥感图像屋顶识别系统,其特征在于,包括:
预处理模块,用于对遥感图像进行数据预处理,获取标准化图像数据;
提取模块,用于基于标准化图像数据,构建主干网络提取遥感图像的特征;
构建模块,用于基于遥感图像的特征,构建空间注意力单元、高频特征单元以及多尺度交互单元;采用U型结构对图像进行逐层的上采样恢复;
训练模块,用于基于预处理模块、提取模块和构建模块形成遥感图像屋顶识别模型,并利用数据集训练模型;
评估模块,用于基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576224.2A CN117612024B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多尺度注意力的遥感图像屋顶识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311576224.2A CN117612024B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多尺度注意力的遥感图像屋顶识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117612024A true CN117612024A (zh) | 2024-02-27 |
CN117612024B CN117612024B (zh) | 2024-06-07 |
Family
ID=89952799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311576224.2A Active CN117612024B (zh) | 2023-11-23 | 2023-11-23 | 一种基于多尺度注意力的遥感图像屋顶识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612024B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205672A (zh) * | 2022-05-25 | 2022-10-18 | 西安建筑科技大学 | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 |
CN115937693A (zh) * | 2023-02-20 | 2023-04-07 | 中南林业科技大学 | 一种基于遥感图像的道路识别方法及系统 |
CN116434069A (zh) * | 2023-04-27 | 2023-07-14 | 南京信息工程大学 | 一种基于局部-全局Transformer网络的遥感图像变化检测方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117612025A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 基于扩散模型的遥感图像屋顶识别方法及系统 |
CN117612023A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 |
-
2023
- 2023-11-23 CN CN202311576224.2A patent/CN117612024B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN115205672A (zh) * | 2022-05-25 | 2022-10-18 | 西安建筑科技大学 | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 |
CN115937693A (zh) * | 2023-02-20 | 2023-04-07 | 中南林业科技大学 | 一种基于遥感图像的道路识别方法及系统 |
CN116434069A (zh) * | 2023-04-27 | 2023-07-14 | 南京信息工程大学 | 一种基于局部-全局Transformer网络的遥感图像变化检测方法 |
CN117612025A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 基于扩散模型的遥感图像屋顶识别方法及系统 |
CN117612023A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 |
Non-Patent Citations (1)
Title |
---|
宋廷强;李继旭;张信耶;: "基于深度学习的高分辨率遥感图像建筑物识别", 计算机工程与应用, no. 08, 31 December 2020 (2020-12-31), pages 32 - 40 * |
Also Published As
Publication number | Publication date |
---|---|
CN117612024B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | Structural crack detection using deep convolutional neural networks | |
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
US10984289B2 (en) | License plate recognition method, device thereof, and user equipment | |
CN104616032A (zh) | 基于深度卷积神经网络的多摄像机系统目标匹配方法 | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN103699874B (zh) | 基于surf流和lle稀疏表示的人群异常行为识别方法 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN111178177A (zh) | 一种基于卷积神经网络的黄瓜病害识别方法 | |
CN114332620A (zh) | 基于特征融合和注意力机制的机载图像车辆目标识别方法 | |
CN112257741A (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
CN113506239B (zh) | 一种基于跨阶段局部网络的带钢表面缺陷检测方法 | |
CN109002771B (zh) | 一种基于递归神经网络的遥感图像分类方法 | |
CN110969121A (zh) | 一种基于深度学习的高分辨率雷达目标识别算法 | |
CN116152678A (zh) | 小样本条件下基于孪生神经网络的海洋承灾体识别方法 | |
CN111104924A (zh) | 一种有效的识别低分辨率商品图像的处理算法 | |
CN117612025A (zh) | 基于扩散模型的遥感图像屋顶识别方法及系统 | |
CN111127407B (zh) | 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法 | |
CN117475327A (zh) | 一种城市中基于遥感图像的多目标检测定位方法和系统 | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
CN117036984A (zh) | 一种融合注意力机制的级联u型网络云检测方法及系统 | |
CN117612024B (zh) | 一种基于多尺度注意力的遥感图像屋顶识别方法 | |
He et al. | Automatic detection and mapping of solar photovoltaic arrays with deep convolutional neural networks in high resolution satellite images | |
Zeng et al. | Masanet: Multi-angle self-attention network for semantic segmentation of remote sensing images | |
Liu et al. | Ground-based visible-light cloud image classification based on a convolutional neural network | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |