CN115393735A - 基于改进U-Net的遥感影像建筑物提取方法 - Google Patents
基于改进U-Net的遥感影像建筑物提取方法 Download PDFInfo
- Publication number
- CN115393735A CN115393735A CN202211112491.XA CN202211112491A CN115393735A CN 115393735 A CN115393735 A CN 115393735A CN 202211112491 A CN202211112491 A CN 202211112491A CN 115393735 A CN115393735 A CN 115393735A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- layer
- module
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种基于改进U‑Net的遥感影像建筑物提取方法,首先获取高分辨率的遥感影像,构建遥感影像数据集;接着,对传统U‑Net进行改进,在编码器中引入全局注意模块和密集连接模块,在编码器与解码器之间引入语义分析模块,得到建筑物提取模型;最后,利用遥感影像数据集对建筑物提取模型进行训练,获得训练后的建筑物提取模型;将训练后的建筑物提取模型用于提取遥感影像中的建筑物。将注意力权重作为密集连接的传输线索,通过对不同注意力模块的注意力特征进行融合,保证建筑物特征提取的完整性;语义分析模块提高了编码器提取的特征图中特征信息的利用率,同时对整个特征图进行融合增强其特征信息,使其获得更好的分割效果。
Description
技术领域
本发明属于遥感技术和计算机视觉技术交叉技术领域,具体涉及一种基于改进U-Net的 遥感影像建筑物提取方法。
背景技术
随着现代遥感技术的发展,高分辨率的遥感图像使得建筑物的提取与识别变得更加可行。 基于遥感影像的建筑物提取和识别已经被广泛于城市建设、城市规划、数字城市等领域,建 筑物提取可以看作是一个图像分割问题,传统方法大多数通过手工方式提取特征,主要是依 据建筑物颜色、形状和纹理来进行特征提取,这种方法提取过程繁琐,并且准确率低。
近年来,随着深度学习技术的不断发展,很多研究人员将神经网络应用到了遥感影像的 建筑物提取方面,取得了良好效果,同时克服了人工提取的特征表达能力有限的缺陷。
但由于高分辨率遥感影像一般尺寸巨大,包含有丰富的空间信息,并且具有复杂性、多 样性以及不确定性等特点,使得现有的深度学习方法对于建筑物的特征提取能力不足,往往 存在小目标建筑物提取时的缺检、漏检情况,大尺度目标分割时的空洞现象导致目标建筑物 提取不完整,边缘信息太过粗糙导致边界信息丢失等问题,最终导致建筑物提取精度较低。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于改进U-Net的遥感影 像建筑物提取方法。
本发明解决所述技术问题采用的技术方案如下:
一种基于改进U-Net的遥感影像建筑物提取方法,其特征在于,该方法包括以下步骤:
第一步、获取高分辨率的遥感影像,构建遥感影像数据集;
第二步、对传统U-Net进行改进,在编码器中引入全局注意模块和密集连接模块,在编 码器与解码器之间引入语义分析模块,得到建筑物提取模型;其中,编码器包括五个特征提 取层,第二~四个特征提取层后均连接一个全局注意模块;通过密集连接模块对各个全局注意 模块生成的注意力权重进行密集连接,将三个全局注意模块生成的注意力权重分别记为a1、 a2和a3,注意力权重a1分别传递至第二个全局注意模块、第三个全局注意模块和第五个特 征提取层,注意力权重a2分别传递至第三个全局注意模和第五个特征提取层,注意力权重a3 传递至第五个特征提取层;第二个全局注意模块将注意力权重a1与注意力权重a2求均值并 用于更新第二个全局注意模块的全局注意力图;第三个全局注意模块将注意力权重a1、a2与 a3求均值并用于更新第三个全局注意模块的全局注意力图;第五个特征提取层将注意力权重 a1、a2、a3求均值并与自身计算得到的特征图相乘,得到第五个特征提取层的输出特征图;
语义分析模块包括四个语义分析分支,第一语义分析分支包括第一特征融合层、双注意 力模块和第二特征融合层,第二语义分析分支包括第三特征融合层、双注意力模块和第四特 征融合层,第三语义分析分支包括第五特征融合层,第四语义分析分支包括一个双注意力模 块;
第四语义分析分支提取编码器的第五个特征提取层的输出特征图中的语义特征,第四语 义分析分支的输出特征图和第三个全局注意模块输出的全局注意力图是解码器的第一解码层 的输入;第二个全局注意模块输出的全局注意力图和第三个全局注意模块输出的全局注意力 图作为第五特征融合层的输入,第五特征融合层的输出特征图是解码器的第二解码层的输入; 第一个全局注意模块输出的全局注意力图和第二个全局注意模块输出的全局注意力图作为第 三特征融合层的输入,第三特征融合层的输出特征图输入到第二语义分析分支的双注意力模 块中,第二语义分析分支的双注意力模块的输出特征图和第五特征融合层的输出特征图作为 第四特征融合层的输入,第四特征融合层的输出特征图分别输入到第二特征融合层和解码器 的第三解码层;编码器的第一特征提取层的输出特征图和第一个全局注意模块输出的全局注 意力图输入到第一特征融合层中进行融合,第一特征融合层的输出特征图和第三特征融合层 的输出特征图拼接后输入到第一语义分析分支的双注意力模块中,第一语义分析分支的双注 意力模块的输出特征图和第四特征融合层的输出特征图输入到第二特征融合层中进行特征融 合,第二特征融合层的输出特征图是解码器的第四解码层的输入;
第三步、利用遥感影像数据集对建筑物提取模型进行训练,获得训练后的建筑物提取模 型;将训练后的建筑物提取模型用于提取遥感影像中的建筑物。
进一步的,所述双注意力模块包括通道注意力模块和空间注意力模块;通道注意力模块 包括平均池化操作和最大池化操作,将通道注意力模块的输入特征图分别进行平均池化操作 和最大池化操作,再将两种池化操作得到的特征图进行相加,得到通道注意力图;然后,将 通道注意力图输入到空间注意力模块,首先沿着特征图的通道轴进行平均池化操作和最大池 化操作,并将两种池化操作得到的特征进行通道维度的拼接,生成一个特征描述符,特征描 述符经过一个卷积层生成空间注意力图。
进一步的,所述解码器包括第一~四个解码层,每个解码层均包括拼接操作、卷积层、归 一化操作和激活函数。
进一步的,所述全局注意模块的具体操作为:对于全局注意模块的输入特征图,将输入 特征图分别通过三个不同的二维卷积层,得到三个不同的特征图,分别记为q、k和v;将特 征图q与特征图k的转置相乘后,再除以特征图k维度的开平方,再将结果输入到softmax 函数中,得到输入特征图的注意力权重;将注意力权重乘以特征图v,得到全局注意模块输 出的全局注意力图。
与现有技术相比,本发明的有益效果是:
本发明对传统U-Net进行改进,在编码器与解码器之间添加语义分析模块,语义分析模 块提高了编码器提取的特征图中特征信息的利用率,同时对整个特征图进行融合增强其特征 信息,使其获得更好的分割效果。在编码器中引入全局注意模块,提升模型对于遥感影像中 建筑物细节特征的提取能力,可以有效地提高模型对于建筑物边界的提取效果,防止边界信 息丢失。将密集连接的思想引入编码器中,将注意力权重作为密集连接的传输线索,通过对 不同注意力模块的注意力特征进行融合,得到丰富的语义信息,保证了建筑物特征提取的完 整性。此外,图像经过编码器后,随着卷积层数的加深,会导致一些小目标信息的丢失,由 于浅层特征含有更多的纹理信息,深层特征含有更多的语义信息,通过语义分析模块将浅层 特征和深层特征进行融合使得特征所包含的信息更加丰富,从而提高了模型对小目标建筑物 检测的准确度,避免了小目标建筑物的漏检和缺检。
附图说明
图1为本发明的整体流程图;
图2为本发明的建筑物提取模型的结构示意图;
图3为本发明的编码器的结构示意图;
图4为不同模型的提取结果对比示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案进行详细描述,但并不以此限定本申 请的保护范围。
图1为本实施例中提取遥感影像建筑物方法的流程图,如图1所示,本发明提供一种基 于改进U-Net的遥感影像建筑物提取方法,包括以下步骤:
第一步、获取高分辨率的遥感影像,构建遥感影像数据集,将数据集划分为训练集、验 证集和测试集。具体地,本实施例采用的数据集为WHU Building Dataset,该数据集是一套同 时具备大场景和高分辨率特性的遥感影像建筑物数据库,共有8188张影像和对应的像素级标 签图,每张影像的分辨率为512×512像素,其中4736张作为训练集,1036张作为验证集, 2416张作为测试集。
第二步、对传统的语义分割算法U-Net进行改进,在编码器中引入全局注意模块和密集 连接模块,在编码器与解码器之间引入语义分析模块,从而得到建筑物提取模型,因此建筑 物提取模型包括编码器(Encoding)、语义分析模块(Semantic Analysis)和解码器(Decoding) 三部分;编码器用于提取多尺度特征;为了提高编码器提取的特征中信息的利用率,引入语 义分析模块用于提取更加丰富和高层次的语义特征;解码器包括四个解码层,用于对语义分 析模块的输出特征图进行逐步上采样,同时在特征分辨率恢复过程中与低层特征融合,最后 再用双线性插值得到与原始特征图相同大小的分割预测,提高语义分割的精度。
其中,编码器包括五个特征提取层(Conv1~Conv5),具体参数如表1所示。第二~四个 特征提取层后均连接一个全局注意模块,分别记为GCA1、GCA2和GCA3;全局注意模块的 目的是提取特征图中有用的细节信息,抑制无效特征信息,操作过程为:对于全局注意模块 的输入特征图,首先,将输入特征图分别通过三个不同的二维卷积层,得到三个不同的特征 图,分别记为q、k和v;然后,将特征图q与特征图k的转置相乘后,再除以特征图k维度 的开平方,这一步主要是使特征图q和k相乘后的结果满足期望为0,方差为1的分布,类似于归一化操作;最后,将结果输入到softmax函数中,得到输入特征图的注意力权重;将注意力权重乘以特征图v,得到全局注意模块的输出,即全局注意力图;全局注意模块的引入可以加强网络特征的学习能力,提高模型在细节方面的处理性能,有效弥补了采用传统U-Net提取遥感影像建筑物时,容易出现边界信息丢失的缺陷。
表1特征提取层参数
为了能够获取更密集的多尺度特征信息,在编码器中同时引入密集连接模块,密集连接 方式主要是将全局注意模块依次向下并行连接,对各个全局注意模块生成的注意力权重进行 密集连接,通过传递注意力权重来丰富特征图的语义信息,使得编码器可以产生更密集的特 征金字塔,同时编码器的输出特征图也具有更大尺度的感受野;将三个全局注意模块生成的 注意力权重分别记为a1、a2和a3,如图3所示,第一个全局注意模块GCA1生成的注意力 权重a1分别传递至第二个全局注意模块GCA2、第三个全局注意模块GCA3和第五个特征提 取层Conv5,第二个全局注意模块GCA2生成的注意力权重a2分别传递至第三个全局注意模 块GCA3和第五个特征提取层Conv5,第三个全局注意模块GCA3生成的注意力权重a3传递 至第五个特征提取层Conv5;在第二个全局注意模块GCA2更新全局注意力图的过程中,将 注意力权重a1与自身生成的注意力权重a2相加求均值并用于更新第二个全局注意模块GCA2 输出的全局注意力图;同理,在第三个全局注意模块GCA3更新全局注意力图的过程中,将 注意力权重a1、a2与自身生成的注意力权重a3相加求均值并用于更新第三个全局注意模块 GCA3输出的全局注意力图;在第五个特征提取层Conv5更新输出特征图的过程中,将注意 力权重a1、a2、a3相加求均值并与自身计算出的输出特征图相乘,得到更新后的Conv5的输 出特征图。
语义分析模块包括四个语义分析分支,第一语义分析分支包括第一特征融合层Conv1-1、 双注意力模块(CBAM)和第二特征融合层Conv1-2,第二语义分析分支包括第三特征融合 层Conv2-1、双注意力模块和第四特征融合层Conv2-2,第三语义分析分支包括第五特征融合 层Conv3-1,第四语义分析分支包括一个双注意力模块;特征融合层用于浅层特征和深层特 征的融合,双注意力模块用于提取输入特征图的通道注意力图和空间注意力图;
第四语义分析分支提取编码器的第五个特征提取层的输出特征图中的语义特征,第四语 义分析分支的输出特征图和第三个全局注意模块GCA3输出的全局注意力图是解码器的第一 解码层的输入;第二个全局注意模块GCA2输出的全局注意力图和第三个全局注意模块GCA3 输出的全局注意力图作为第五特征融合层Conv3-1的输入,第五特征融合层Conv3-1的输出 特征图是解码器的第二解码层的输入;第一个全局注意模块GCA1输出的全局注意力图和第 二个全局注意模块GCA2输出的全局注意力图作为第三特征融合层Conv2-1的输入,第三特 征融合层Conv2-1的输出特征图输入到第二语义分析分支的双注意力模块中,第二语义分析 分支的双注意力模块的输出特征图和第五特征融合层Conv3-1的输出特征图作为第四特征融 合层Conv2-2的输入,第四特征融合层Conv2-2的输出特征图分别输入到第二特征融合层 Conv1-2和解码器的第三解码层;编码器的第一特征提取层Conv1的输出特征图和第一个全 局注意模块GCA1输出的全局注意力图输入到第一特征融合层Conv1-1中进行融合,第一特 征融合层Conv1-1的输出特征图和第三特征融合层Conv2-1的输出特征图拼接后输入到第一 语义分析分支的双注意力模块中,第一语义分析分支的双注意力模块的输出特征图和第四特 征融合层Conv2-2的输出特征图输入到第二特征融合层Conv1-2中进行特征融合,第二特征 融合层Conv1-2的输出特征图是解码器的第四解码层的输入。
表2特征融合层参数
为了提高对于多尺度特征的提取能力,防止建筑物边界信息的丢失,双注意力模块包括 通道注意力模块和空间注意力模块;通道注意力模块利用特征图的通道关系生成一个通道注 意力图,因为一个特征图的每个通道都可以认为是一个特征检测器,通道注意力关注特征图 中有意义的内容,为了高效地计算通道注意力,压缩输入特征图的空间维度,本文认为最大 池化采集了另一个关于标志性对象特征的重要线索,并用此线索来推算更细粒度的通道注意 力,因此,通道注意力模块包括平均池化操作和最大池化操作,对于输入到通道注意力模块 中的特征图分别进行平均池化操作和最大池化操作,再将两种池化操作得到的特征图进行相 加,得到通道注意力图;然后,将得到的通道注意力图输入到空间注意力模块,利用特征图 的空间相互关系生成一个空间注意力图。与通道注意力不同,空间注意力专注于特征图中“哪 里”是信息丰富的部分,这与通道注意力是互补的,为了计算空间注意力,首先沿着特征图 的通道轴进行平均池化操作和最大池化操作,并将两种池化操作得到的特征进行通道维度的 拼接,生成一个高效的特征描述符,特征描述符经过一个卷积层生成空间注意力图,空间注 意力图编码了特征图中哪个区域被突显或抑制,提取到更加丰富和高层次的语义信息,保证 了建筑物提取整体的完整性。
所述解码器包括第一~四个解码层,每个解码层均包括拼接操作(FF)、卷积层、归一化 操作和激活函数,在图2中,卷积层、归一化操作和激活函数记为CB。
传统的语义分割算法U-Net包括编码器和解码器,以VGG-16作为传统U-Net的主干特 征提取网络。
第三步、利用第一步得到的遥感影像数据集对建筑物提取模型进行训练,获得训练后的 建筑物提取模型;将训练后的建筑物提取模型用于提取遥感影像中的建筑物。
具体地,训练相关参数设置为:批处理大小(Batch size)为10,选代次数为50次,总 下采样倍数为16;采用Adam优化算法来对模型进行优化,更新之后再进行权重衰减,初始 学习率设置为0.001,权重衰减率设置为0.001。实验中采用周期性的余弦退火学习率策略, 学习率会呈余弦函数型衰减,以初始学习率为最大学习率,当学习率每次衰减到0之后,会 迅速回到初始值,从而避免陷入局部最优解。损失函数同时采用BCE损失函数和IOUloss 损失函数组成的混合损失函数。
为了验证本发明的有效性,使用遥感影像数据集的测试集对利用传统U-Net和本发明的 建筑物提取模型进行测试,得到如图4所示的测试结果对比图。从图4中第一行的对比结果 可知,传统U-Net丢失了目标区域左上角的特征,而本发明方法能够完整地提取目标区域的 建筑物,保证了建筑物的完整性,一方面是由于在编码器与解码器之间添加了语义分析模块, 通过语义分析模块提高了特征信息的利用率,进而丰富了特征图的语义信息,另一方面是由 于在编码器中引入了密集连接模块,通过密集连接模块提取多尺度特征,保证了提取的完整 性。从图4中第二行的对比结果可知,传统U-Net丢失了部分边界信息,而本发明方法能够 清晰的提取建筑物边界,这是由于全局注意模块能够加强网络模型对建筑物细节特征的提取 能力,得到区分性特征,使得网络能够清晰的分辨出边界。上述结果验证了本发明方法能够 保证建筑物提取的完整性,同时还能够防止建筑物边界信息的丢失。
本发明未述及之处适用于现有技术。
Claims (4)
1.一种基于改进U-Net的遥感影像建筑物提取方法,其特征在于,该方法包括以下步骤:
第一步、获取高分辨率的遥感影像,构建遥感影像数据集;
第二步、对传统U-Net进行改进,在编码器中引入全局注意模块和密集连接模块,在编码器与解码器之间引入语义分析模块,得到建筑物提取模型;其中,编码器包括五个特征提取层,第二~四个特征提取层后均连接一个全局注意模块;通过密集连接模块对各个全局注意模块生成的注意力权重进行密集连接,将三个全局注意模块生成的注意力权重分别记为a1、a2和a3,注意力权重a1分别传递至第二个全局注意模块、第三个全局注意模块和第五个特征提取层,注意力权重a2分别传递至第三个全局注意模和第五个特征提取层,注意力权重a3传递至第五个特征提取层;第二个全局注意模块将注意力权重a1与注意力权重a2求均值并用于更新第二个全局注意模块的全局注意力图;第三个全局注意模块将注意力权重a1、a2与a3求均值并用于更新第三个全局注意模块的全局注意力图;第五个特征提取层将注意力权重a1、a2、a3求均值并与自身计算得到的特征图相乘,得到第五个特征提取层的输出特征图;
语义分析模块包括四个语义分析分支,第一语义分析分支包括第一特征融合层、双注意力模块和第二特征融合层,第二语义分析分支包括第三特征融合层、双注意力模块和第四特征融合层,第三语义分析分支包括第五特征融合层,第四语义分析分支包括一个双注意力模块;
第四语义分析分支提取编码器的第五个特征提取层的输出特征图中的语义特征,第四语义分析分支的输出特征图和第三个全局注意模块输出的全局注意力图是解码器的第一解码层的输入;第二个全局注意模块输出的全局注意力图和第三个全局注意模块输出的全局注意力图作为第五特征融合层的输入,第五特征融合层的输出特征图是解码器的第二解码层的输入;第一个全局注意模块输出的全局注意力图和第二个全局注意模块输出的全局注意力图作为第三特征融合层的输入,第三特征融合层的输出特征图输入到第二语义分析分支的双注意力模块中,第二语义分析分支的双注意力模块的输出特征图和第五特征融合层的输出特征图作为第四特征融合层的输入,第四特征融合层的输出特征图分别输入到第二特征融合层和解码器的第三解码层;编码器的第一特征提取层的输出特征图和第一个全局注意模块输出的全局注意力图输入到第一特征融合层中进行融合,第一特征融合层的输出特征图和第三特征融合层的输出特征图拼接后输入到第一语义分析分支的双注意力模块中,第一语义分析分支的双注意力模块的输出特征图和第四特征融合层的输出特征图输入到第二特征融合层中进行特征融合,第二特征融合层的输出特征图是解码器的第四解码层的输入;
第三步、利用遥感影像数据集对建筑物提取模型进行训练,获得训练后的建筑物提取模型;将训练后的建筑物提取模型用于提取遥感影像中的建筑物。
2.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法,其特征在于,所述双注意力模块包括通道注意力模块和空间注意力模块;通道注意力模块包括平均池化操作和最大池化操作,将通道注意力模块的输入特征图分别进行平均池化操作和最大池化操作,再将两种池化操作得到的特征图进行相加,得到通道注意力图;然后,将通道注意力图输入到空间注意力模块,首先沿着特征图的通道轴进行平均池化操作和最大池化操作,并将两种池化操作得到的特征进行通道维度的拼接,生成一个特征描述符,特征描述符经过一个卷积层生成空间注意力图。
3.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法,其特征在于,所述解码器包括第一~四个解码层,每个解码层均包括拼接操作、卷积层、归一化操作和激活函数。
4.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法,其特征在于,所述全局注意模块的具体操作为:对于全局注意模块的输入特征图,将输入特征图分别通过三个不同的二维卷积层,得到三个不同的特征图,分别记为q、k和v;将特征图q与特征图k的转置相乘后,再除以特征图k维度的开平方,再将结果输入到softmax函数中,得到输入特征图的注意力权重;将注意力权重乘以特征图v,得到全局注意模块输出的全局注意力图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211112491.XA CN115393735A (zh) | 2022-09-14 | 2022-09-14 | 基于改进U-Net的遥感影像建筑物提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211112491.XA CN115393735A (zh) | 2022-09-14 | 2022-09-14 | 基于改进U-Net的遥感影像建筑物提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393735A true CN115393735A (zh) | 2022-11-25 |
Family
ID=84127321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211112491.XA Pending CN115393735A (zh) | 2022-09-14 | 2022-09-14 | 基于改进U-Net的遥感影像建筑物提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393735A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883679A (zh) * | 2023-07-04 | 2023-10-13 | 中国科学院地理科学与资源研究所 | 基于深度学习的地物目标提取方法和装置 |
-
2022
- 2022-09-14 CN CN202211112491.XA patent/CN115393735A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883679A (zh) * | 2023-07-04 | 2023-10-13 | 中国科学院地理科学与资源研究所 | 基于深度学习的地物目标提取方法和装置 |
CN116883679B (zh) * | 2023-07-04 | 2024-01-12 | 中国科学院地理科学与资源研究所 | 基于深度学习的地物目标提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298818B (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
CN113706482B (zh) | 一种高分辨率遥感影像变化检测方法 | |
CN111126202A (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN110223324A (zh) | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN110929696A (zh) | 一种基于多模态注意与自适应融合的遥感图像语义分割方法 | |
CN114663759A (zh) | 一种基于改进DeepLabV3+的遥感影像建筑物提取方法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN114972312A (zh) | 基于YOLOv4-Tiny改进的绝缘子缺陷检测方法 | |
Su et al. | Uncertainty guided multi-view stereo network for depth estimation | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN116228792A (zh) | 一种医学图像分割方法、系统及电子装置 | |
CN111079826B (zh) | 融合slam和图像处理的施工进度实时识别方法 | |
CN112700476A (zh) | 一种基于卷积神经网络的红外船视频跟踪方法 | |
CN114092824A (zh) | 结合密集注意力和并行上采样的遥感图像道路分割方法 | |
CN115511759A (zh) | 一种基于级联特征交互的点云图像深度补全方法 | |
CN115393735A (zh) | 基于改进U-Net的遥感影像建筑物提取方法 | |
CN114926826A (zh) | 场景文本检测系统 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN112967227B (zh) | 基于病灶感知建模的糖尿病视网膜病变自动评估系统 | |
CN112419325A (zh) | 一种基于深度学习的超像素分割方法 | |
CN113361496A (zh) | 一种基于U-Net的城市建成区统计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |