CN117612023A - 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 - Google Patents
融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 Download PDFInfo
- Publication number
- CN117612023A CN117612023A CN202311575139.4A CN202311575139A CN117612023A CN 117612023 A CN117612023 A CN 117612023A CN 202311575139 A CN202311575139 A CN 202311575139A CN 117612023 A CN117612023 A CN 117612023A
- Authority
- CN
- China
- Prior art keywords
- image
- representing
- remote sensing
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000903 blocking effect Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013083 solar photovoltaic technology Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,包括以下步骤:步骤(1):对遥感图像进行数据预处理;步骤(2):从步骤(1)获取图像数据进行分块,并将图像输入到ResNet34网络中得到特征图;步骤(3):基于ResNet34网络输出的特征图,构建分块自注意力模块、滑窗注意力模块和自适应融合模块,对图像进行恢复;步骤(4):基于步骤(1)‑(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。本发明通过构建遥感图像屋顶识别模型,提高屋顶检测的准确率。
Description
技术领域
本发明涉及遥感图像屋顶识别网络,特别是一种融合注意力机制和卷积神经网络的遥感图像屋顶识别方法。
背景技术
光伏屋顶是一种创新的建筑结构,利用太阳能光伏技术将建筑屋顶或其他建筑表面转化为发电装置。通过在建筑屋顶安装光伏电池板,光伏屋顶将太阳能转化为电能,为建筑本身提供可持续的电力供应,甚至可以将多余的电能并网输送。然而,光伏屋顶的广泛应用面临着屋顶有效识别的巨大难度。在传统的光伏行业中,通常采用无人机低空拍摄和人工现场勘探的方式,以统计符合屋顶光伏项目建设要求的屋顶数量、面积和屋面障碍物占比等数据。然而,这种方法效率低下且成本巨大。
利用深度学习和图像识别技术结合卫星遥感数据,可以识别城市建筑轮廓,区分屋顶和非屋顶区域,并获取光伏安装区域的面积。近年来一些研究提出了不同的方法来识别真实屋顶面积,例如采用深度学习中的图像语义分割技术自动提取屋顶区域,并使用空间优化采样策略获取训练集;运用深度神经网络(DNN)中的U-Net来识别建筑屋顶,并从而估计建筑物屋顶的实际面积;使用基于ResUNet深度学习方法来提取建筑物的技术,利用卫星图像识别建筑轮廓等。尽管这些方法在识别真实屋顶面积方面取得了一些进展,但它们也可能面临一些潜在的弊端和挑战。基于U-Net、ResUNet等深度学习方法可能涉及到较深的网络结构,这可能导致梯度消失或梯度爆炸等问题,特别是在训练时可能需要更复杂的优化和正则化策略。同时,采用空间优化采样策略可能受到采样偏差的影响,尤其是当建筑物分布不均匀或在特定地区建筑物密度较高或较低的情况下。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
本发明的技术方案是:融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,包括以下步骤:
步骤(1):对遥感图像进行数据预处理;
步骤(2):从步骤(1)获取图像数据进行分块,并将图像输入到ResNet34网络中得到特征图;
步骤(3):基于ResNet34网络输出的特征图,构建分块自注意力模块、滑窗注意力模块和自适应融合模块,对图像进行恢复;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;
步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
步骤(1)中:遥感图像包括若干组样本,每组样本都包括一张卫星航拍图像和对应的建筑屋顶标签图;
在输入图像上用滑动窗口将图像分割成不重叠的图像块,图像块的大小固定为4×4;然后,特征图中的特征值通过线性嵌入层投影到C维度,并对图像进行归一化,将像素值缩放到0到1之间。
步骤(2)包括:
步骤(2.1):利用大小固定为4×4窗口对图像进行分块;
步骤(2.2):从步骤(2.1)中获取图像块,连续进行四个阶段的下采样,每个阶段将每组2×2相邻图像块的特征连接起来,图像块完成合并之后,用线性嵌入层将输出维度更改为2C,用于逐层提取图像特征,特征每经过一个阶段,其尺度大小都会缩小一半,通道数都会增大一倍,以获取不同尺度上的抽象特征。
所述分块自注意力模块的数学表达式如公式(1)-(3)所示:
Qhw×C·KT=Ahw×hw (1)
Λhw×hw·Vhw×C=Yhw×C (3)
其中,Qhw×C表示输入图像块的查询特征,KT表示输入图像块的键特征,Vhw×C表示输入图像块重要性值特征,Yhw×C表示输出图像块特征,B表示可学习的偏置,T表示转置操作,Λhw×hw表示经过激活函数后的图像特征,Ahw×hw表示图像块经过自注意力后的特征,h表示图像的高,w表示图像的宽,c表示图像的通道数量,d表示线性变换层的隐藏维度,Softmax表示Softmax激活函数。
所述滑窗注意力模块的数学表达式如公式(4)-(5)所示:
其中,xl表示输入特征,xl+1表示输出特征,表示经过滑窗注意力后的特征表示,LN表示层正则化操作,SW-MSA表示滑窗自注意力机制,MLP表示线性映射操作。
所述自适应融合模块的其数学表达式如公式(6)-(8)所示:
xcs,i=ReLU(Conv(Interpolate(concat(xf,i,xc,i))))) (6)
xBN,i=ReLU(BN(Conv(Concat(xc,i,xs,i))))) (7)
xq=Conv(xBN,i) (8)
其中,xf,i表示自适应融合模块的特征矩阵,xc,i表示卷积神经网络输出的编码特征,xq表示输出特征,xs,i和XBN,i分别表示为自注意力模块的特征矩阵和自适应融合模块的特征融合映射,concat表示张量拼接操作,Interpolate表示插值操作,Conv表示卷积操作,BN表示批正则化操作,ReLU表示Relu激活函数。
步骤(4)中,训练过程采用Adam优化器进行梯度更新,权重衰减系数为0.0001,学习率为0.001,交叉熵损失作为损失函数。
步骤(5)中:F1分数和交并比的数学表达式如公式(9)-(10)所示:
其中,F1表示F1分数,IoU表示交并比,Precision和Recall分别表示精确率和召回率,TP、FP、FN分别表示真阳、假阳和假阴。
本发明在工作中,首先,对遥感图像进行预处理;其次,对图像数据进行分块,并将图像输入到ResNet34网络中得到特征图;然后构建分块自注意力模块、滑窗注意力模块和自适应融合模块进行图像恢复,从而实现构建遥感图像屋顶识别模型。
本发明引入了分块自注意力单元,在减少模型复杂度的同时关注图像的局部信息;提出滑窗注意力单元,通过局部感受野来捕捉全局信息;提出自适应融合模块单元,有效融合卷积神经网络和自注意力机制的编码特征,使得模型更精确地识别出建筑屋顶。本发明提高了屋顶检测的准确率。
附图说明
图1为本发明的方法流程图;
图2为本发明中模型的框架示意图;
图3为分块自注意力模块的结构示意图;
图4为滑窗自注意力模块的结构示意图;
图5为自适应融合模块的结构示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
本发明如图1-5所示,融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,包括以下步骤:
步骤(1):对遥感图像进行数据预处理;
步骤(2):从步骤(1)获取图像数据进行分块,并将图像输入到ResNet34网络中得到特征图;
步骤(3):基于ResNet34网络输出的特征图,构建分块自注意力模块、滑窗注意力模块和自适应融合模块,对图像进行恢复;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;
步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
本发明首先使用基于Transformer的自注意力模型对遥感图像的全局语义信息进行建模。然而,Transformer用于自注意力计算的分片计算方法忽略了每个分片内部的空间信息,从而导致屋顶识别的不准确。因此,本发明提供了一种新的语义分割模型,它是一个结合了Transformer和CNN优点的模型,用于提高各种遥感图像的分割质量。
鉴于图像的局部信息和全局信息可能不能被充分利用,本发明采用分阶段模型来提取各种语义尺度的粗粒度和细粒度特征表示。为了充分利用不同阶段获得的特征,本发明还设计了自适应融合模块,该模块采用自我关注机制自适应地融合不同尺度特征之间的语义信息,使得模型能有效识别出各种建筑物的屋顶。
具体地:
步骤(1):对遥感图像进行数据预处理。为了训练模型,需要对原始数据进行数据增强和标准化操作,因为神经网络对数据分布非常敏感。每组样本都包括一张卫星航拍图像和对应的建筑屋顶标签图。在输入图像上用滑动窗口将图像分割成不重叠的图像块,图像块的大小固定为4×4。然后,特征图中的特征值通过线性嵌入层投影到C维度。并对图像进行归一化,将像素值缩放到0到1之间,确保更好的处理能力。
由于屋顶数据集具有各种复杂的形状、颜色和大小,这使得它们很容易与尘土和未铺砌的道路等其他特征混淆。为了应对这个问题,首先使用将图像进行分块以便后续模型进行处理。接下来使用归一化方法将原始图像转换为标准形式。
归一化使用Z-score方法,它基于原始数据的均值和标准差来对数据进行标准化处理,如公式(1)所示:
其意义为数值距离均值有几个标准差,Xnorm表示经过归一化后的图像,X表示原始图像,σ表示原始图像数据的方差,μ表示原始图像数据的均值。
当μ=0,σ=1,即均值为0,标准差为1,则表示经过处理后的数据符合标准正态分布,这样做可以确保数据在处理过程中具有相似的尺度和分布特性。
步骤(2):从步骤(1)获取图像数据进行分块;将原始图像输入到ResNet34网络中得到特征图。
具体包括:
步骤(2.1):首先利用大小固定为4×4窗口对图像进行分块,将分块后的图像块馈送入步骤(2.2)。
步骤(2.2):从步骤(2.1)中获取图像块。连续进行四个阶段的下采样,每个阶段将每组2×2相邻图像块的特征连接起来,图像块完成合并之后,应用线性嵌入层将输出维度更改为2C,用于进一步地逐层提取图像特征,特征每经过一个阶段,其尺度大小都会缩小一半,通道数都会增大一倍,以获取不同尺度上的抽象特征;
获取后四个阶段所提取到的图像特征,并将原始图像输入到ResNet34网络中得到特征图。ResNet34网络包括连续的五个阶段,后四个阶段包括四个残差层。
步骤(3):基于ResNet34网络输出的特征图,构建分块自注意力模块,滑窗注意力模块和自适应融合模块对其进行处理。ResNet34生成的特征图与自注意力不同阶段生成的特征图合并,以利用自注意力模块收集特征的全局语义上下文信息的能力。最后,将融合后的特征图上采样两次,并将特征图恢复为输入图像的大小。
具体包括:
步骤(3.1):构建分块自注意力模块;标准Transformer块中使用的自注意力是通过将其中一个令牌与所有其他令牌相关来计算的。这种计算使得网络的计算工作量相对于图像的分辨率大小呈二次方增长,模型将需要高端计算设备。而分块自注意力模块将在当前的窗口中执行自注意力计算,以大幅减少计算时间,其数学表达式如公式(2)-(4)所示:
Qhw×C·KT=Ahw×hw (2)
Λhw×hw·Vhw×C=Yhw×C (4)其中,Qhw×C表示输入图像块的查询特征,KT表示输入图像块的键特征,Vhw×C表示输入图像块重要性值特征,Yhw×C表示输出图像块特征,B表示可学习的偏置,T表示转置操作,Λhw×hw表示经过激活函数后的图像特征,Ahw×hw表示图像块经过自注意力后的特征,h表示图像的高,w表示图像的宽,c表示图像的通道数量,d表示线性变换层的隐藏维度,Softmax表示Softmax激活函数;
步骤(3.2)构建滑窗注意力模块;滑窗注意力机制是一种图像处理方法,结合滑窗操作和自注意力操作,旨在处理大尺寸图像的长距离依赖关系。滑窗注意力操作的目的是通过局部感受野和有限的计算资源来捕捉全局信息,并将这些局部信息整合起来以获得全局上下文。其数学表达式如公式(5)-(6)所示:
其中,xl表示输入特征,xl+1表示输出特征,表示经过滑窗注意力后的特征表示,LN表示层正则化操作,SW-MSA表示滑窗自注意力机制,MLP表示线性映射操作;
步骤(3.3)构建自适应融合模块;为了有效融合卷积神经网络和自注意力机制的编码特征,需要通过自注意力计算得到特征权重矩阵,选择性地增强空间细节或抑制其他区域,从而增强密集预测的区分能力,其数学表达式如公式(7)-(9)所示:
xcs,i=ReLU(Conv(Interpolate(concat(xf,i,xc,i))))) (7)
xBN,i=ReLU(BN(Conv(Concat(xc,i,xs,i))))) (8)
xq=Conv(xBN,i) (9)其中,xf,i表示自适应融合模块的特征矩阵,xc,i表示卷积神经网络输出的编码特征,xq表示输出特征,xs,i和xBN,i分别表示为自注意力模块的特征矩阵和自适应融合模块的特征融合映射,concat表示张量拼接操作,Interpolate表示插值操作,Conv表示卷积操作,BN表示批正则化操作,ReLU表示Relu激活函数;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;在本发明中,采用马萨诸塞州建筑物数据集进行实验,模型基于Pytorch框架进行搭建,在GeForce RTX 3090GPU上进行训练,配备有英特尔i5处理器,64GB RAM和Ubuntu系统;训练过程采用Adam优化器进行梯度更新,权重衰减系数为0.0001,即向损失函数中加入系数为0.0001的正则化项以防止参数过拟合现象,学习率设置为0.001,使得模型参数能够在一定时间内收敛到局部最优值,损失函数采用交叉熵损失,用于约束模型参数的学习过程。
步骤(5):基于F1分数(F1)和交并比(IoU)两个评价指标对模型性能进行评估,其数学表达式如公式(10)-(11)所示:
其中,Precision和Recall分别表示精确率和召回率,TP,FP,FN分别表示真阳,假阳和假阴。F1值越高,模型的性能越好。交并比反映标注框与预测框的重合程度,用于衡量预测框的正确程度,IoU越高,模型的性能越好。
相较于现有的遥感图像屋顶识别方法,本发明中的模型在最终预测准确率上取得了显著的提升。鉴于神经网络对数据分布的敏感性,本发明首先采用图像分块和归一化变换的数据预处理操作来对原始数据进行预处理。然后,引入了分块自注意力单元,它在减少模型复杂度的同时,使模型更关注遥感图像的局部特征;滑窗注意力单元负责通过局部感受野和有限的计算资源来捕捉全局信息,并将这些局部信息整合起来以获得全局上下文;自适应融合单元能够选择性地增强空间细节或抑制其他区域,从而增强密集预测的区分能力。最终,经过预测层的输出,能够获取各种建筑屋顶的预测标签。通过使用F1和IoU两个评价指标对模型进行性能评估,本发明中的融合注意力机制和卷积神经网络方法明显优于现有算法,并取得了更好的性能表现。
以上仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,包括以下步骤:
步骤(1):对遥感图像进行数据预处理;
步骤(2):从步骤(1)获取图像数据进行分块,并将图像输入到ResNet34网络中得到特征图;
步骤(3):基于ResNet34网络输出的特征图,构建分块自注意力模块、滑窗注意力模块和自适应融合模块,对图像进行恢复;
步骤(4):基于步骤(1)-(3)形成遥感图像屋顶识别模型,并利用数据集训练模型;
步骤(5):基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。
2.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
步骤(1)中:遥感图像包括若干组样本,每组样本都包括一张卫星航拍图像和对应的建筑屋顶标签图;
在输入图像上用滑动窗口将图像分割成不重叠的图像块,图像块的大小固定为4×4;然后,特征图中的特征值通过线性嵌入层投影到C维度,并对图像进行归一化,将像素值缩放到0到1之间。
3.根据权利要求2所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
步骤(2)包括:
步骤(2.1):利用大小固定为4×4窗口对图像进行分块;
步骤(2.2):从步骤(2.1)中获取图像块,连续进行四个阶段的下采样,每个阶段将每组2×2相邻图像块的特征连接起来,图像块完成合并之后,用线性嵌入层将输出维度更改为2C,用于逐层提取图像特征,特征每经过一个阶段,其尺度大小都会缩小一半,通道数都会增大一倍,以获取不同尺度上的抽象特征。
4.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
所述分块自注意力模块的数学表达式如公式(1)-(3)所示:
Qhw×C·KT=Ahw×hw (1)
Λhw×hw·Vhw×C=Yhw×C (3)
其中,Qhw×C表示输入图像块的查询特征,KT表示输入图像块的键特征,Vhw×C表示输入图像块重要性值特征,Yhw×C表示输出图像块特征,B表示可学习的偏置,T表示转置操作,Λhw×hw表示经过激活函数后的图像特征,Ahw×hw表示图像块经过自注意力后的特征,h表示图像的高,w表示图像的宽,c表示图像的通道数量,d表示线性变换层的隐藏维度,Softmax表示Softmax激活函数。
5.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
所述滑窗注意力模块的数学表达式如公式(4)-(5)所示:
其中,xl表示输入特征,xl+1表示输出特征,表示经过滑窗注意力后的特征表示,LN表示层正则化操作,SW-MSA表示滑窗自注意力机制,MLP表示线性映射操作。
6.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
所述自适应融合模块的其数学表达式如公式(6)-(8)所示:
xcs,i=ReLU(Conv(Interpolate(concat(xf,i,xc,i))))) (6)
xBN,i=ReLU(BN(Conv(Concat(xc,i,xs,i))))) (7)
xq=Conv(xBN,i) (8)
其中,xf,i表示自适应融合模块的特征矩阵,xc,i表示卷积神经网络输出的编码特征,xq表示输出特征,xs,i和xBN,i分别表示为自注意力模块的特征矩阵和自适应融合模块的特征融合映射,concat表示张量拼接操作,Interpolate表示插值操作,Conv表示卷积操作,BN表示批正则化操作,ReLU表示Relu激活函数。
7.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
步骤(4)中,训练过程采用Adam优化器进行梯度更新,权重衰减系数为0.0001,学习率为0.001,交叉熵损失作为损失函数。
8.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法,其特征在于,
步骤(5)中:F1分数和交并比的数学表达式如公式(9)-(10)所示:
其中,F1表示F1分数,IoU表示交并比,Precision和Recall分别表示精确率和召回率,TP、FP、FN分别表示真阳、假阳和假阴。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311575139.4A CN117612023A (zh) | 2023-11-23 | 2023-11-23 | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311575139.4A CN117612023A (zh) | 2023-11-23 | 2023-11-23 | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612023A true CN117612023A (zh) | 2024-02-27 |
Family
ID=89959094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311575139.4A Pending CN117612023A (zh) | 2023-11-23 | 2023-11-23 | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612023A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612024A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于多尺度注意力的遥感图像屋顶识别方法及系统 |
CN118470438A (zh) * | 2024-07-09 | 2024-08-09 | 广东工业大学 | 基于半监督分割模型的屋顶光伏潜力评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733800A (zh) * | 2021-01-22 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 基于卷积神经网络的遥感图像道路信息提取方法和装置 |
CN114359702A (zh) * | 2021-11-29 | 2022-04-15 | 诺维艾创(广州)科技有限公司 | 一种基于Transformer的宅基地遥感图像违建识别方法及系统 |
CN115049941A (zh) * | 2022-06-27 | 2022-09-13 | 无锡学院 | 一种改进的ShuffleNet卷积神经网络及其遥感图像的分类方法 |
CN116071650A (zh) * | 2023-02-16 | 2023-05-05 | 南京信息工程大学 | 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 |
CN116305967A (zh) * | 2023-03-23 | 2023-06-23 | 南开大学 | 基于卷积神经网络和多模态特征融合的海面风速反演方法 |
CN116469005A (zh) * | 2023-03-27 | 2023-07-21 | 北京工业大学 | 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法 |
-
2023
- 2023-11-23 CN CN202311575139.4A patent/CN117612023A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733800A (zh) * | 2021-01-22 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 基于卷积神经网络的遥感图像道路信息提取方法和装置 |
CN114359702A (zh) * | 2021-11-29 | 2022-04-15 | 诺维艾创(广州)科技有限公司 | 一种基于Transformer的宅基地遥感图像违建识别方法及系统 |
CN115049941A (zh) * | 2022-06-27 | 2022-09-13 | 无锡学院 | 一种改进的ShuffleNet卷积神经网络及其遥感图像的分类方法 |
CN116071650A (zh) * | 2023-02-16 | 2023-05-05 | 南京信息工程大学 | 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 |
CN116305967A (zh) * | 2023-03-23 | 2023-06-23 | 南开大学 | 基于卷积神经网络和多模态特征融合的海面风速反演方法 |
CN116469005A (zh) * | 2023-03-27 | 2023-07-21 | 北京工业大学 | 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法 |
Non-Patent Citations (2)
Title |
---|
LIANG GAO等: ""STransFuse: Fusing Swin Transformer and Convolutional Neural Network for Remote Sensing Image Semantic Segmentation"", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATION AND REMOTE SENSING》, 14 October 2021 (2021-10-14), pages 10990 - 11003, XP011887026, DOI: 10.1109/JSTARS.2021.3119654 * |
ZE LIU等: ""Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 28 February 2021 (2021-02-28), pages 9992 - 10002 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612024A (zh) * | 2023-11-23 | 2024-02-27 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于多尺度注意力的遥感图像屋顶识别方法及系统 |
CN117612024B (zh) * | 2023-11-23 | 2024-06-07 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于多尺度注意力的遥感图像屋顶识别方法 |
CN118470438A (zh) * | 2024-07-09 | 2024-08-09 | 广东工业大学 | 基于半监督分割模型的屋顶光伏潜力评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN117612023A (zh) | 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法 | |
CN109816695A (zh) | 一种复杂背景下的红外小型无人机目标检测与跟踪方法 | |
CN110781838A (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
Ou et al. | A CNN framework with slow-fast band selection and feature fusion grouping for hyperspectral image change detection | |
Yin et al. | Attention-guided siamese networks for change detection in high resolution remote sensing images | |
CN115311241A (zh) | 一种基于图像融合和特征增强的煤矿井下行人检测方法 | |
Lowphansirikul et al. | 3D Semantic segmentation of large-scale point-clouds in urban areas using deep learning | |
CN117612025B (zh) | 基于扩散模型的遥感图像屋顶识别方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 | |
CN117746264B (zh) | 无人机航拍车辆检测与道路分割的多任务实现方法 | |
CN115063833A (zh) | 一种基于图像分层视觉的机房人员检测方法 | |
Wang et al. | Contrastive GNN-based traffic anomaly analysis against imbalanced dataset in IoT-based its | |
CN112232236B (zh) | 行人流量的监测方法、系统、计算机设备和存储介质 | |
CN115880660A (zh) | 一种基于结构表征和全局注意力机制的轨道线检测方法和系统 | |
CN116665451A (zh) | 基于拥堵路段交通信息实时定位指挥处理系统 | |
CN116310967A (zh) | 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
CN116612343A (zh) | 一种基于自监督学习的输电线路金具检测方法 | |
CN115909144A (zh) | 一种基于对抗学习的监控视频异常检测方法及系统 | |
CN104851090A (zh) | 图像变化检测方法及装置 | |
CN115100681A (zh) | 一种衣着识别方法、系统、介质及设备 | |
CN114863103A (zh) | 一种无人潜航器识别方法、设备和存储介质 | |
Zhang et al. | A Multi-Scale Cascaded Cross-Attention Hierarchical Network for Change Detection on Bitemporal Remote Sensing Images | |
CN113887443A (zh) | 一种基于属性感知注意力汇集的工业烟排放识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |