CN113298818A - 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 - Google Patents
基于注意力机制与多尺度特征的遥感图像建筑物分割方法 Download PDFInfo
- Publication number
- CN113298818A CN113298818A CN202110779969.3A CN202110779969A CN113298818A CN 113298818 A CN113298818 A CN 113298818A CN 202110779969 A CN202110779969 A CN 202110779969A CN 113298818 A CN113298818 A CN 113298818A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- feature
- channel
- remote sensing
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 62
- 230000007246 mechanism Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000011176 pooling Methods 0.000 claims abstract description 20
- 208000016444 Benign adult familial myoclonic epilepsy Diseases 0.000 claims abstract description 18
- 208000016427 familial adult myoclonic epilepsy Diseases 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 29
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 20
- 238000012549 training Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法,涉及遥感影响建筑物提取技术领域,构建包括编码器、中间层、解码器的语义分割网络模型FAME‑Net;在编码阶段将通道注意力机制和空间维度注意力机制进行融合;在编码器与解码器之间的中间层增设锚点特征增强的空间金字塔池化C‑ASPP模块;在解码阶段进行多尺度特征融合并引入平均损失函数;能够提高对小型建筑物特征的提取能力,有效利用图像多尺度特征,提高分割目标精度。
Description
技术领域
本发明涉及遥感影响建筑物提取技术领域,具体涉及一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法。
背景技术
近年来,随着城市化进程的不断加快,高分辨率遥感影像建筑物提取在城市规划、人口估算和智慧城市三维重建等方面越发重要。遥感影像受拍摄角度、阳光、云、建筑物附近道路植被等因素的影响,具有相对复杂的语义特征,因此,遥感影像建筑物的分割已成为高分辨率遥感图像分割中最具挑战性的任务之一。
作为像素级的分割问题,建筑物分割的核心是特征提取,常用方法大致可分为两类:一是基于人工提取特征,二是基于深度学习自动提取特征。
人工特征提取基于边缘、阈值或区域,利用几何形状、光谱特性、纹理、颜色、阴影等信息进行特征提取,分割图像,该类方法只利用地面目标的浅层特征,未涉及复杂建筑物深层的多尺度特征,提取精度较低。
随着深度学习的快速发展,卷积神经网络自动提取特征优势在图像分类、目标检测和语义分割等方面表现尤为突出,正逐渐取代传统人工提取特征方法。Alshehhi等人基于卷积神经网络图像块分类方法自动学习和提取道路及建筑物特征,分割中块状区域会产生模糊锯齿状边缘,全连接层使批处理操作过程存在大量冗余计算,占用内存大。Long等人在2015年首次提出全卷积神经网络FCN(Fully Convolutional Networks)图像语义分割架构,在遥感图像语义分割领域取得了突破性进展,该架构用卷积层代替了卷积神经网络中的全连接层,有效减少了冗余计算,通过反卷积实现语义分割,消除了图像块分割方法中块状区域带来的锯齿状边缘,但空间信息损失严重,对图像中的细节不敏感。因此,Ronneberger等人在FCN的基础上提出了一种用于医学图像分割的U-Net架构,在FCN基础上增加跳跃连接拼接深层和浅层图像特征,解决FCN网络信息损失严重问题,在建筑物提取任务中表现出较大潜力,但U-Net仅关注如何更好恢复特征图的分辨率,忽略了深层次特征的获取。Chaurasia等人为提取深层次特征,在传统的U-Net中引入了ResNet18,直接连接编码器与解码器,构建一种具有实时性的轻量级网络,但忽略了图像的多尺度信息。Zhou等人提出了D-LinkNet模型,在LinkNet基础上加入并联空洞卷积层,执行道路提取任务,在不损失分辨率的同时增大感受野,提高了挖掘全局上下文信息的能力,但仍存在错误分割和分割连续性差问题。遥感图像语义分割实际上是二分类问题,大量研究表明,编码-解码器网络更适用于遥感图像分割,上述U-Net、LinkNet、D-LinkNet等网络在遥感图像分割领域取得了一定成果,分割精度也在逐步提高,但这些网络对小型建筑物分割效果并不理想,也未考虑建筑物集群间的边界粘连的问题。
发明内容
为解决现有技术中存在的各问题,本发明提供一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法,能够提高对小型建筑物特征的提取能力,有效利用图像多尺度特征,提高分割目标精度。
本发明为解决其技术问题所采用的技术方案是:一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法,构建包括编码器、中间层、解码器的语义分割网络模型FAME-Net;在编码阶段将通道注意力机制和空间维度注意力机制进行融合;在编码器与解码器之间的中间层增设锚点特征增强的空间金字塔池化C-ASPP模块;在解码阶段进行多尺度特征融合并引入平均损失函数。
进一步的,所述编码器采用不含全连接层的恒等映射残差网络获取深层次特征,在编码器中对通道注意力机制和空间维度注意力机制进行级联融合后得到的融合注意力机制添加至所述残差网络的每层残差单元后。
进一步的,所述通道注意力机制为:首先用不降维方法对输入特征图U进行通道级全局平均池化,获取不同通道信息,实现挤压操作,而后取消全连接层,使用k个快速一维卷积捕获跨通道局部交互信息,通过Sigmoid激活函数后,生成通道权值,获取通道依赖关系,所述k值由通道附近参与空间维度注意力机制预测的通道数C自适应确定,最后,将通道权值与输入特征图点乘,进行权重分配,得到不同重要程度的通道特征图。
进一步的,所述k值通过如下公式确定:
其中的|.|odd表示最近奇数,β=2,b=1。
进一步的,所述在中间层增设锚点特征增强的空间金字塔池化C-ASPP模块包括:在编码器和解码器之间引入空洞空间金字塔池化层ASPP,根据特征图尺寸和感受野需求,重新整定ASPP中的扩张率为1、3、6、9,仅针对最大扩张率的卷积核锚点进行特征增强。
进一步的,所述ASPP扩张率通过如下公式重新整定:
RF=K+(K-1)(r-1),
其中,RF为所需的感受野,r为重新整定的ASPP扩张率,,K为空洞卷积核大小。
进一步的,所述针对最大扩张率的卷积核锚点进行特征增强为:在扩张率为9的卷积核中引入拉普拉斯算子,进行锚点权重系数优化,构建锚点特征增强的空间金字塔池化C-ASPP模块。
进一步的,所述锚点权重系数优化为:
用拉普拉斯边缘检测算子G替换卷积核锚点及其4邻域的值,将卷积核锚点及其4邻域作为有效点一同提取特征,在拉普拉斯边缘检测算子构成的3×3卷积中,利用局部空间特征信息提取新的锚点边缘特征信息权重C,卷积过程下式所示,卷积输出结果作为锚点的特征信息;
X*G=C,
进一步的,所述在解码阶段进行多尺度特征融合并引入平均损失函数,包括:
在解码器中使用融合层策略设置一个多尺度特征融合模块,将特征图的浅层特征和深层特征进行融合,融合中将不同层次的特征图进行16、8、4、2倍的上采样还原成原有特征图尺度,利用通道维度Concat方法将不同尺度特征进行拼接,使用平均损失函数求取多尺度损失。
进一步的,所述平均损失函数LFinal为:
其中,LBCE通过下式计算:
LDice通过下式计算:
LBCE和LDice的计算公式中,P表示预测值,GT表示真实值,W和H分别代表特征图的宽度和高度,gtij和pij分别代表真实值和预测值的每个像素点。
有益效果:在编码器中用残差网络取代编码器原有网络结构,解决遥感图像细节空间深层次特征的提取问题,保证模型不退化,同时在残差网络中融合了通道注意力机制和空间维度注意力机制,使模型专注于学习建筑物特征,有效抑制无关信息干扰,改善中小型建筑物分割精度;中间层增设空间金字塔池化层C-ASPP,重新整定空洞卷积扩张率,平衡模型对大小目标的敏感度;引入拉普拉斯算子,优化卷积核锚点权重系数,提高建筑物边缘轮廓的描述能力;在解码器中添加特征融合机制,通过设计平均损失函数,提高不同尺度的特征信息利用率。
附图说明
图1是本发明FAME-Net网络模型结构图;
图2是本发明残差网络结构图;
图3是本发明残差网络的残差单元结构图;
图4是本发明融合注意力机制示意图;
图5是本发明添加融合注意力机制的残差网络结构;
图6是本发明不同尺度感受野对比;
图7是本发明空间金字塔池化C-ASPP模块结构图;
图8是本发明锚点特征增强方法示意图;
图9是本发明不同模型损失对比图;
图10是本发明不同模型平均交并比对比图;
图11是本发明小型建筑物提取结果对比图;
图12是本发明建筑物集群边界粘连分割结果对比图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法,针对传统U-Net模型网络较浅,无法提取深层次特征,上采样和下采样操作中存在信息丢失,不具备小目标和集群边界粘连分割能力的问题,构建一个端到端的语义分割网络模型FAME-Net,结合恒等映射残差网络,优化传统U-Net网络结构;所述FAME-Net模型由编码器、中间层,解码器三部分组成,如图1所示。
1.融合注意力机制的残差网络:
编码器特征提取能力对图像分割的结果影响很大,卷积神经网络越深所提取的特征越抽象,语义信息越多,传统U-Net网络分割方法网络层数较少,无法有效提取遥感图像深层次特征,图像细节描述能力不足,增加编码器网络层数则会出现梯度消失和梯度爆炸模型退化问题。针对上述问题,本发明在编码器中用恒等映射残差网络获取深层次特征,同时规避模型退化问题,考虑到残差网络全连接层带来的参数冗余,本发明采用一个不含全连接层的残差网络ResNet33,如图2所示。
残差网络ResNet33由1个7×7卷积池化层,以及个数分别为3、4、6、3的残差单元组成。其中,残差单元如图3所示,由两个3×3卷积层、批标准化、RELU激活函数和恒等映射构成。首先经过一个3×3卷积核,再连接一个BN(BatchNormalization)层对每一个batch数据做批量归一化处理,可以减少网络过拟合程度,然后采用Relu激活函数,使网络更加接近非线性;最后,利用shortcut实现恒等映射保证模型的不退化。
增加残差网络深度能提升特征表达能力,但获取的深层次特征缺乏语义信息,会对建筑物分割造成干扰,不能从根本上解决小目标分割和边界粘连问题。为此,本发明引入注意力机制捕获全局关键语义信息,加大建筑物区域权重,提高模型对建筑物的分割能力。优选的,本发明在编码器中对通道注意力机制和空间维度注意力机制进行级联融合,设计了如图4所示的融合注意力机制(Fusion attention mechanism,FAM),其中,σ代表Sigmoid激活函数,W、H、C分别代表特征图的宽、高和通道数。
优选的,为获取不同通道信息,捕获信息的跨通道交互,提高小型建筑物的提取能力,提出一个改进的通道注意力机制CAM,如图4所示。
具体的,通道注意力机制CAM:首先,用不降维方法取代降维方法,对输入特征图U进行通道级全局平均池化,获取不同通道信息,实现挤压操作;其次,取消全连接层,使用k个快速一维卷积捕获跨通道局部交互信息,通过Sigmoid激活函数后,生成通道权值,获取高效通道依赖关系,减少参数量,降低模型计算复杂度,k由通道附近参与注意力预测的通道数C自适应确定,见公式(1),其中|.|odd的表示最近奇数,β=2,b=1。最后,将通道权值与输入特征图点乘,进行权重分配,得到不同重要程度的通道特征图,提升网络对主要特征的敏感度,抑制无用特征的干扰。
为有效获得通道下精确的空间位置特征信息,将通道注意力机制和空间维度注意力机制进行级联,加大建筑物区域权重,增强目标区域有效特征。如图5所示,为获取每一层目标区域特征,在每层残差单元后添加级联后的融合注意力机制,保证有效获取建筑物关键位置有效特征,屏蔽树木、道路等环境因素干扰。
2.锚点特征增强的空间金字塔池化
在遥感图像特征提取过程中,编码器网络为增大感受野,图像尺寸每经过一次池化层的下采样操作被缩小到1/4,使得3/4的像素信息被丢失,这些像素信息在上采样时无法重建,导致特征提取效率下降,影响建筑物分割的准确性。为解决上述问题,本发明在编码器和解码器之间引入了空洞空间金字塔池化层ASPP,在减少分辨率损失的基础上,增大感受野获得多尺度的信息。在卷积神经网络中,卷积核尺寸和扩张率决定了感受野的大小,不同大小感受野对不同尺度的目标识别能力是不一样的,如图6(b)-(c)所示,小感受野提取大建筑物会导致采样信息丢失,大感受野提取小建筑物会引入不必要的周围环境干扰信息,如树木、道路,合适的感受野能保证建筑物的分割准确度。
考虑到空洞空间金字塔池化层ASPP中1、6、12、18扩张率的卷积核产生的感受野由公式(2)算得分别为1×1,13×13,25×25和37×37,其中25×25和37×37感受野较大,使远距离卷积得到的信息无相关性,对小目标的敏感度降低,不利于遥感图像中微小物体的分割。为同时满足大小目标的分割精度,根据本发明测试用遥感图像特征图尺寸和感受野需求,利用公式(2)重新整定ASPP中的扩张率为1、3、6、9,有效平衡了模型对大小目标的敏感度。公式(2)中RF为所需的感受野,r为重新整定的ASPP扩张率,K为空洞卷积核大小。
RF=K+(K-1)(r-1) (2)
调整扩张率缓解了远距离卷积无相关性影响,但空洞卷积提取特征时,卷积核锚点位置权重仍会随着扩张率的增加而减弱,影响模型对遥感图像建筑物边缘轮廓的描述能力。为解决上述问题,本发明仅针对最大扩张率的卷积核锚点进行特征增强。如图7所示,在扩张率为9的卷积核中引入拉普拉斯算子,进行锚点权重系数优化,构建锚点特征增强的空间金字塔池化C-ASPP模块。如图8所示,为增强特征图中心区域的权重信息,用拉普拉斯边缘检测算子G替换卷积核锚点及其4邻域的值,将锚点及其4邻域作为有效点一同提取特征,在拉普拉斯边缘检测算子构成的3×3卷积中,利用局部空间特征信息提取新的锚点边缘特征信息权重C,卷积过程如式(3)所示,卷积输出结果作为锚点的特征信息。
XxG=C (3)
3.多尺度特征融合与平均损失函数
浅层特征和深层特征在空间和语义表达能力方面有着不同的优势,浅层特征虽然感受野较小,但包含了丰富的空间结构信息,适合处理小目标;深层结构虽然感受野较大,适合大目标分割,但空间几何特征细节缺乏,不适合小目标的处理。为提升FAME-Net小目标分割性能,如图1所示,在解码器中使用融合层策略设计一个多尺度特征融合模块,将浅层特征和深层特征进行融合。为求取多尺度损失,设计了如下平均损失函数LFinal:
其中,LBCE通过下式计算:
BCE Loss对类别不平衡图像中正样本像素类别特征学习困难且易陷入局部最优,导致训练出的模型鲁棒性不佳,为解决此问题,本发明引入Dice Loss用于提高模型鲁棒性,其定义如下:
LDice通过下式计算:
LBCE和LDice的计算公式中,P表示预测值,GT表示真实值,W和H分别代表特征图的宽度和高度,gtij和pij分别代表真实值和预测值的每个像素点。
为规避U-Net解码器使用双线性插值逐层上采样造成的信息丢失问题,特征融合中将不同层次的特征图进行16、8、4、2倍的上采样直接还原成原有特征图尺寸。利用通道维度Concat方法将不同尺度特征进行拼接,充分利用多尺度的特征信息。
实施例2
关于实施例1的实验与结果分析:
为验证实施例1所述方案对小型建筑物多尺度遥感图像的分割性能,基于Inria遥感影像公开数据集,将本发明FAME-Net模型与U-Net、Link-Net和D-LinkNet在模型精度、小型建筑物识别和边界粘连分割等方面进行对比实验,验证本发明方法有效性。
1.Inria遥感影像数据集
优选的,Inria遥感影像公开数据集包含180张带标签的5000×5000像素航空遥感图片,覆盖了人口稠密城区、人烟稀少高山和城镇等不同区域,航空遥感图像视野较大,干扰背景和许多小目标建筑物(几十个甚至几个像素)信息丰富。通常原始遥感图像尺寸过大,加之GPU显存的限制,直接使用会导致模型参数爆炸,为解决上述问题,本发明优选地将原始数据集180张5000×5000像素的图片进行了预处理,采用数据增强技术,对训练图像进行各个方向的翻转、平移、颜色变换等操作,将数据集扩充为11520张512×512像素图片,并按照8:2的比例分为训练集和测试集,提高了模型的泛化能力。
2.实验配置与训练
2.1实验平台
为验证实施例1所述方案的优越性,建立对比实验,优选的,本发明所有实验的软硬件环境配置均保持一致,如表1所示。
表1 实验环境配置
2.2.实验设计
模型训练采取交叉验证的方法,每次训练随机选择验证集批量数据计算损失和精度,并优化模型的训练。由于GPU显存限制,每个batch由乱序的4张图片组成,Batchsize设置为4。
训练时,一个批次包含4幅512×512×3RGB的图片,模型预测输出与输入图片标签进行比较,计算训练损失,评估训练网络拟合能力。为使网络快速收敛,自适应调节学习率,使用带动量的Adam算法作为优化器,初始学习率设为0.0001,动量为0.9。所有训练数据在每一轮迭代结束后用验证集数据再次对模型拟合能力进行评估,保存最佳权重参数,迭代1000次。
预测阶段,利用评价指标在Inria遥感影像数据集上对最佳权重模型进行性能测试与分析。在相同的实验条件下,分别对U-Net、Link-Net、D-LinkNet和发明FAME-Net模型在迭代性能、模型精度和图像分割性能进行预测分析。
2.3.评价指标
为量化评价遥感图像建筑物分割性能,分别采用式(8)-(9)所示的平均交并比(mean Intersection over Union,mIoU)和F1分数(F1 score)作为评价指标,F1分数是计算精确率和召回率的调和均值,mIoU和F1的取值均介于[0,1],mIoU越接近1分割结果越精确,F1分数越接近1模型鲁棒性越高。实验中,正确判断为建筑物的样本记为TP,错误判断建筑物的样本记为FP;正确判断背景的样本记为TN,错误判断背景的样本记为FN。
3.性能测试与结果分析
3.1.迭代性能与模型精度分析
经过1000次迭代,U-Net,Link-Net,D-LinkNet和本发明FAME-Net模型损失和精度对比如图9和10所示。横坐标Epoch表示迭代次数,图9纵坐标表示损失值,图10纵坐标为平均交并比。
训练损失和验证损失分别衡量模型在训练集和测试集上的拟合能力,损失值越小表示预测结果和真实结果越逼近,模型的拟合度越好。由图9(a)可以看出,经过迭代200次U-Net,Link-Net,D-LinkNet网络趋于收敛,上述网络前期拟合速度较快,迭代300次左右4个网络均收敛,FAME-Net损失值小于0.01,明显小于其它模型,且无过拟合现象。由图9(b)看出,受GPU显存限制,实验中Batchsize取值偏小,导致验证损失曲线震荡较剧烈,但与训练损失基本一致,模型整体训练较好。
由图9可知,所有测试模型在迭代300时基本收敛,由图10和表2可以看出,训练模型收敛时,在平均交并比(mIou)方面,U-Net,Link-Net,D-LinkNet分别为75.16%、78.32%、81.63%,FAME-Net模型为84.10%,均高于其它网络模型,比U-Net高出近9%;在F1分数方面,U-Net为80.62%,Link-Net为84.96%,D-LinkNet为86.98%,FAME-Net模型为89.02%,比D-LinkNet网络高出近3%。
表2 各个模型的评价指标
综上表明,FAME-Net模型在遥感图像建筑物提取任务中具有较好的分割精度,同时拥有更加平衡的精确度和召回率,模型鲁棒性高。
3.2.小型建筑物识别结果分析
为验证FAME-Net对小型建筑物目标提取和建筑物集群边界粘连分割性能,随机选择了6副包含小型建筑集群区域的数据集进行测试,该区域建筑物排列错综复杂,形状、大小、屋顶颜色都各不相同。图11和图12分别展示了对比方法和本发明在Inria遥感影像数据集上对建筑物的分割结果。图中黑色代表背景,白色代表建筑物,其中(a)图为RGB三通道的遥感图像,(b)图为建筑物真实标签图,(c-f)图分别为U-Net、Link-Net、D-LinkNet和FAME-Net模型分割结果。
由图11实验结果可知,图11(c)和图11(d)在分割与地面和植被颜色无差别的建筑物时均存在漏分、错分现象,主要原因在于池化操作导致的信息丢失较多;图11(e)由于引入空洞卷积,增大了全局感受野,对不同尺寸建筑物信息比较敏感,一定程度上弥补了丢失的细节信息,相比于图11(c-d)的误分问题明显减少;图11(f)对不同尺寸的建筑物分割效果均优于图11(c-e),主要原因在于C-ASPP模块重新调整的扩张率和多尺度特征融合结构对不同尺度的目标具有很好的适应性,增强了不同尺度特征之间的关联性,使模型对不同尺寸建筑物提取性能明显提升。从图11(c-f)方框处对比可知,U-Net,Link-Net和D-LinkNet模型,对像素较小的建筑物提取能力均较差,第一行和第二行的小建筑物未识别出来,第三行将距离过近的小建筑物识别为一个整体,FAME-Net模型与其它三种模型相比,对小型建筑物的识别较为准确,分割准确率明显提升,并未出现整个建筑物的漏分割,仅存在小部分建筑物由于遮挡过重导致预测不完整情形,原因在于FAME-Net的不降维级联融合注意力机制既能抑制道路、树木、车辆等无关信息的干扰,又能准确获取小型建筑物关键的空间信息。
3.3.建筑物集群边界粘连分割结果分析
建筑物集群的边缘分割结果如图12所示,图12(c-e)图圆圈处由于树木、道路等外物的干扰,且相邻建筑物距离过近,训练中难以准确提取其边缘特征,存在较为明显的边界不连续和粘连问题,图12(f)相同位置处的建筑物边界分割存在着明显的改善,克服了复杂背景影响,有效地保留了建筑物边界信息,建筑物轮廓清晰、完整,未出现较为明显的误预测,主要原因在于本发明的锚点增强空间金字塔池化C-ASPP模块,引入拉普拉斯算子,将锚点及其4邻域作为有效点一同提取特征,在级联融合注意力机制屏蔽无关信息干扰情况下,对建筑物边缘轮廓特征进行增强。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,构建包括编码器、中间层、解码器的语义分割网络模型FAME-Net;在编码阶段将通道注意力机制和空间维度注意力机制进行融合;在编码器与解码器之间的中间层增设锚点特征增强的空间金字塔池化C-ASPP模块;在解码阶段进行多尺度特征融合并引入平均损失函数。
2.根据权利要求1所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述编码器采用不含全连接层的恒等映射残差网络获取深层次特征,在编码器中对通道注意力机制和空间维度注意力机制进行级联融合后得到的融合注意力机制添加至所述残差网络的每层残差单元后。
3.根据权利要求2所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述通道注意力机制为:首先用不降维方法对输入特征图U进行通道级全局平均池化,获取不同通道信息,实现挤压操作,而后取消全连接层,使用k个快速一维卷积捕获跨通道局部交互信息,通过Sigmoid激活函数后,生成通道权值,获取通道依赖关系,所述k值由通道附近参与空间维度注意力机制预测的通道数C自适应确定,最后,将通道权值与输入特征图点乘,进行权重分配,得到不同重要程度的通道特征图。
5.根据权利要求1所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述在中间层增设锚点特征增强的空间金字塔池化C-ASPP模块包括:在编码器和解码器之间引入空洞空间金字塔池化层ASPP,根据特征图尺寸和感受野需求,重新整定ASPP中的扩张率为1、3、6、9,仅针对最大扩张率的卷积核锚点进行特征增强。
6.根据权利要求5所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述ASPP扩张率通过如下公式重新整定:
RF=K+(K-1)(r-1),
其中,RF为所需的感受野,r为重新整定的ASPP扩张率,K为空洞卷积核大小。
7.根据权利要求5所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述针对最大扩张率的卷积核锚点进行特征增强为:在扩张率为9的卷积核中引入拉普拉斯算子,进行锚点权重系数优化,构建锚点特征增强的空间金字塔池化C-ASPP模块。
9.根据权利要求1所述的基于注意力机制与多尺度特征的遥感图像建筑物分割方法,其特征在于,所述在解码阶段进行多尺度特征融合并引入平均损失函数,包括:
在解码器中使用融合层策略设置一个多尺度特征融合模块,将特征图的浅层特征和深层特征进行融合,融合中将不同层次的特征图进行16、8、4、2倍的上采样还原成原有特征图尺度,利用通道维度Concat方法将不同尺度特征进行拼接,使用平均损失函数求取多尺度损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779969.3A CN113298818B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779969.3A CN113298818B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298818A true CN113298818A (zh) | 2021-08-24 |
CN113298818B CN113298818B (zh) | 2023-08-18 |
Family
ID=77330719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110779969.3A Active CN113298818B (zh) | 2021-07-09 | 2021-07-09 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298818B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833343A (zh) * | 2020-07-23 | 2020-10-27 | 北京小白世纪网络科技有限公司 | 冠状动脉狭窄度估计方法系统及设备 |
CN113688956A (zh) * | 2021-10-26 | 2021-11-23 | 西南石油大学 | 一种基于深度特征融合网络的砂岩薄片分割和识别方法 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN113920412A (zh) * | 2021-10-21 | 2022-01-11 | 航天科工海鹰集团有限公司 | 一种基于深度学习的城市建筑物提取方法 |
CN114037922A (zh) * | 2021-11-29 | 2022-02-11 | 南京审计大学 | 一种基于层级上下文网络的航拍图像分割方法 |
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114187520A (zh) * | 2021-12-15 | 2022-03-15 | 中国科学院地理科学与资源研究所 | 一种建筑物提取模型及其应用方法 |
CN114219817A (zh) * | 2022-02-22 | 2022-03-22 | 湖南师范大学 | 新冠肺炎ct图像分割方法及终端设备 |
CN114387523A (zh) * | 2022-03-23 | 2022-04-22 | 成都理工大学 | 基于dcnn边界引导的遥感图像建筑物提取方法 |
CN114387521A (zh) * | 2022-01-14 | 2022-04-22 | 中国人民解放军国防科技大学 | 基于注意力机制和边界损失的遥感影像建筑物提取方法 |
CN114419381A (zh) * | 2022-04-01 | 2022-04-29 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114612479A (zh) * | 2022-02-09 | 2022-06-10 | 苏州大学 | 一种基于全局与局部特征重建网络的医学图像分割方法 |
CN114820652A (zh) * | 2022-04-07 | 2022-07-29 | 北京医准智能科技有限公司 | 乳腺x线图像局部质量异常区域的分割方法、装置及介质 |
CN115546032A (zh) * | 2022-12-01 | 2022-12-30 | 泉州市蓝领物联科技有限公司 | 一种基于特征融合与注意力机制的单帧图像超分辨率方法 |
CN115620163A (zh) * | 2022-10-28 | 2023-01-17 | 西南交通大学 | 一种基于遥感影像的半监督学习深切河谷智能识别方法 |
CN116343053A (zh) * | 2022-12-27 | 2023-06-27 | 生态环境部卫星环境应用中心 | 基于光学遥感影像和sar遥感影像融合的固废自动提取方法 |
CN116645505A (zh) * | 2023-05-12 | 2023-08-25 | 中国地质大学(武汉) | 基于多尺度和级联的神经网络遥感影像语义分割方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
CN117456530A (zh) * | 2023-12-20 | 2024-01-26 | 山东大学 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
CN117809289A (zh) * | 2024-02-29 | 2024-04-02 | 东北大学 | 一种面向交通场景的行人检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447994A (zh) * | 2018-11-05 | 2019-03-08 | 陕西师范大学 | 结合完全残差与特征融合的遥感图像分割方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN112287983A (zh) * | 2020-10-15 | 2021-01-29 | 西安电子科技大学 | 一种基于深度学习的遥感图像目标提取系统和方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112862774A (zh) * | 2021-02-02 | 2021-05-28 | 重庆市地理信息和遥感应用中心 | 一种遥感影像建筑物精确分割方法 |
-
2021
- 2021-07-09 CN CN202110779969.3A patent/CN113298818B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447994A (zh) * | 2018-11-05 | 2019-03-08 | 陕西师范大学 | 结合完全残差与特征融合的遥感图像分割方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN112287983A (zh) * | 2020-10-15 | 2021-01-29 | 西安电子科技大学 | 一种基于深度学习的遥感图像目标提取系统和方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112862774A (zh) * | 2021-02-02 | 2021-05-28 | 重庆市地理信息和遥感应用中心 | 一种遥感影像建筑物精确分割方法 |
Non-Patent Citations (1)
Title |
---|
宋廷强;李继旭;张信耶;: "基于深度学习的高分辨率遥感图像建筑物识别", 计算机工程与应用, no. 08 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833343A (zh) * | 2020-07-23 | 2020-10-27 | 北京小白世纪网络科技有限公司 | 冠状动脉狭窄度估计方法系统及设备 |
CN113850825B (zh) * | 2021-09-27 | 2024-03-29 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN113920412A (zh) * | 2021-10-21 | 2022-01-11 | 航天科工海鹰集团有限公司 | 一种基于深度学习的城市建筑物提取方法 |
CN113688956A (zh) * | 2021-10-26 | 2021-11-23 | 西南石油大学 | 一种基于深度特征融合网络的砂岩薄片分割和识别方法 |
CN114037922A (zh) * | 2021-11-29 | 2022-02-11 | 南京审计大学 | 一种基于层级上下文网络的航拍图像分割方法 |
CN114170167A (zh) * | 2021-11-29 | 2022-03-11 | 深圳职业技术学院 | 基于注意力引导上下文校正的息肉分割方法和计算机设备 |
CN114187520A (zh) * | 2021-12-15 | 2022-03-15 | 中国科学院地理科学与资源研究所 | 一种建筑物提取模型及其应用方法 |
CN114187520B (zh) * | 2021-12-15 | 2022-09-27 | 中国科学院地理科学与资源研究所 | 一种建筑物提取模型的构建及应用方法 |
CN114387521A (zh) * | 2022-01-14 | 2022-04-22 | 中国人民解放军国防科技大学 | 基于注意力机制和边界损失的遥感影像建筑物提取方法 |
CN114612479A (zh) * | 2022-02-09 | 2022-06-10 | 苏州大学 | 一种基于全局与局部特征重建网络的医学图像分割方法 |
CN114219817A (zh) * | 2022-02-22 | 2022-03-22 | 湖南师范大学 | 新冠肺炎ct图像分割方法及终端设备 |
CN114387523A (zh) * | 2022-03-23 | 2022-04-22 | 成都理工大学 | 基于dcnn边界引导的遥感图像建筑物提取方法 |
CN114419381B (zh) * | 2022-04-01 | 2022-06-24 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114419381A (zh) * | 2022-04-01 | 2022-04-29 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114820652A (zh) * | 2022-04-07 | 2022-07-29 | 北京医准智能科技有限公司 | 乳腺x线图像局部质量异常区域的分割方法、装置及介质 |
CN115620163A (zh) * | 2022-10-28 | 2023-01-17 | 西南交通大学 | 一种基于遥感影像的半监督学习深切河谷智能识别方法 |
CN115546032A (zh) * | 2022-12-01 | 2022-12-30 | 泉州市蓝领物联科技有限公司 | 一种基于特征融合与注意力机制的单帧图像超分辨率方法 |
CN115546032B (zh) * | 2022-12-01 | 2023-04-21 | 泉州市蓝领物联科技有限公司 | 一种基于特征融合与注意力机制的单帧图像超分辨率方法 |
CN116343053B (zh) * | 2022-12-27 | 2024-02-09 | 生态环境部卫星环境应用中心 | 基于光学遥感影像和sar遥感影像融合的固废自动提取方法 |
CN116343053A (zh) * | 2022-12-27 | 2023-06-27 | 生态环境部卫星环境应用中心 | 基于光学遥感影像和sar遥感影像融合的固废自动提取方法 |
CN116645505A (zh) * | 2023-05-12 | 2023-08-25 | 中国地质大学(武汉) | 基于多尺度和级联的神经网络遥感影像语义分割方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
CN117078943B (zh) * | 2023-10-17 | 2023-12-19 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
CN117456530A (zh) * | 2023-12-20 | 2024-01-26 | 山东大学 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
CN117456530B (zh) * | 2023-12-20 | 2024-04-12 | 山东大学 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
CN117809289A (zh) * | 2024-02-29 | 2024-04-02 | 东北大学 | 一种面向交通场景的行人检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113298818B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298818A (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
CN111126202B (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN111259906B (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN109934200B (zh) | 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN115331087B (zh) | 融合区域语义与像素特征的遥感影像变化检测方法及系统 | |
CN109241982A (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN110334656B (zh) | 基于信源概率加权的多源遥感图像水体提取方法及装置 | |
Chen et al. | Remote sensing image quality evaluation based on deep support value learning networks | |
CN111476089B (zh) | 一种图像中多模态信息融合的行人检测方法、系统及终端 | |
CN113610905B (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN113569724B (zh) | 基于注意力机制和扩张卷积的道路提取方法及系统 | |
CN113095371B (zh) | 一种面向三维重建的特征点匹配方法及系统 | |
CN113505670A (zh) | 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法 | |
CN115797929A (zh) | 基于双注意力机制的小型农田图像分割方法、装置 | |
Zhu et al. | CDANet: Contextual detail-aware network for high-spatial-resolution remote-sensing imagery shadow detection | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
CN114463624A (zh) | 一种应用于城市管理监督的违章建筑物检测方法及装置 | |
Knöbelreiter et al. | Self-supervised learning for stereo reconstruction on aerial images | |
Khoshboresh-Masouleh et al. | Robust building footprint extraction from big multi-sensor data using deep competition network | |
CN116310832A (zh) | 遥感图像处理方法、装置、设备、介质及产品 | |
Guo et al. | Blind single-image-based thin cloud removal using a cloud perception integrated fast Fourier convolutional network | |
CN115641445A (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN113361475A (zh) | 一种基于多阶段特征融合信息复用的多光谱行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |