CN114821069B - 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 - Google Patents
融合富尺度特征的双分支网络遥感图像建筑语义分割方法 Download PDFInfo
- Publication number
- CN114821069B CN114821069B CN202210593046.3A CN202210593046A CN114821069B CN 114821069 B CN114821069 B CN 114821069B CN 202210593046 A CN202210593046 A CN 202210593046A CN 114821069 B CN114821069 B CN 114821069B
- Authority
- CN
- China
- Prior art keywords
- features
- shallow
- deep
- rich
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000010276 construction Methods 0.000 title description 2
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000002474 experimental method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 11
- 239000011800 void material Substances 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,包括以下步骤:深层语义路径基于混合空洞卷积的ResNet50提取不同层次的建筑物语义特征;将提取的深层语义特征经空间金字塔处理;浅层空间路径采用较小的下采样倍数以保持图像的分辨率,主要以Res2Net模块及富尺度特征提取模块获取准确的图像空间信息;将深层特征与浅层特征自适应融合。本发明能避免因浅层特征提取不当,影响深层特征的准确性;从浅层空间路径提取具有丰富空间信息的高分辨率特征,从深层语义路径获取聚合上下文信息的高级语义特征,确保了不同层次特征的高效利用;特征融合模块能为不同分辨率的特征图自适应分配权重,实现更好的特征融合。
Description
技术领域
本发明属于遥感图像建筑物提取技术领域,具体涉及一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法。
背景技术
遥感图像建筑物提取在城市规划、城市动态变化监测、土地利用变更调查等实际应用中发挥着重要作用。但随着遥感图像空间分辨率不断提高,地物细节信息愈加丰富,且复杂程度更高。建筑物存在的尺度多样、形状各异、光谱异质性强等特点,致使高空间分辨率遥感图像建筑物语义分割极具挑战性。
遥感图像语义分割是根据图像语义信息,按照一定的规则和算法为每个像素分配一个对应的类别标签。在遥感图像建筑物语义分割中,传统方法通过人工或机器学习方法获取纹理、灰度、几何等图像特征实现对建筑物语义分割,主要包括基于聚类、阈值、区域、图论模型等方法。这类方法均建立在精准的数学模型上,但由于人工设计的特征会随传感器质量、光照条件、建筑物结构的差异产生较大变化,通常分割精度较低,且难以推广到其他数据集。
近年来,随着深度学习快速发展,如卷积神经网络(Convolutional NeuralNetwork,CNN)、递归神经网络、生成式对抗网络出色地完成了各类计算机视觉任务,基于深度学习的语义分割网络也受到了广泛关注。Long J等提出全卷积神经网络(FullConvolutional Networks,FCN)将传统CNN中全连接层替换为全卷积层,解决了语义级别的图像分割问题;Ronneberger O等提出了一种用于医学图像分割的新型编码-解码网络架构UNet,解码器在上采样逐渐恢复图像分辨率过程中,使用跳跃连接与编码部分对应分辨率的特征进行融合,从而利用不同层次的语义特征来提高图像分割精度;Zhao H等提出了一种金字塔场景解析网络,通过在FCN中嵌入不同场景的上下文特征提高分割效果;He K等针对随模型深度加深网络出现退化问题,提出了一种减轻网络训练负担的残差学习框架(ResNet),保证了网络精度随深度增加而增加。基于CNN遥感图像建筑物语义分割已成为建筑物提取的主要方法,田青林等在解码阶段的横向连接过程中引入注意力机制以突出重要特征,并采用自上而下的密集连接方式计算特征金字塔,有效提升了遥感图像语义分割中多尺度目标分割边缘分割精度;徐胜军等提出了一种基于多尺度特征融合空洞卷积ResNet分割网络,有效地解决了复杂场景下道路、树木及建筑物之间分割边界不清晰问题;赫晓慧等针对遥感图像背景复杂,在建筑物提取时建筑物目标的部分细节特征与背景区分度较低,出现建筑物轮廓失真、缺失等问题,通过融合RGB特征图和边缘特征设计了自适应加权边缘特征融合网络(VAF-Net),在Massachusetts Buildings数据集上取得了较好分割效果;何青等利用多层次编码解码结构提取影像中建筑物不同尺度特征,在同层次特征之间引入密集连接提高浅层特征的准确性,并在相邻层次特征之间引入交换单元增加不同层次的特征交互能力,从而达到提升建筑物边缘提取精度和高分辨率特征利用率的目的;ChenM等以deeplabv3编码解码网络为主干,将深度卷积神经网络(DCNN)与ResNet结合,提出了一种密集残差神经网络(DR-Net),解决浅层提取的低层特征与人工神经网络深层提取的抽象特征不能完全融合问题;Jin Y针对现有的大多数CNN因多尺度上下文信息聚合差、不同层次特征融合不充分以及未考虑语义边缘信息,而导致建筑物边界预测存在巨大不确定性问题,提出一种嵌入了特殊边界感知损失的新型网络(Boundary-Aware Refined Network,BARNet),BARNet在跳越连接中实现了跨级特征融合,通过引入边界增强损失函数,使模型能够关注边界像素。
上述研究提高了遥感图像建筑物提取精度,同时改善了建筑物轮廓分割残缺等问题,但仍存在浅层空间特征利用率低的情况。
为提高浅层特征利用率,增强浅层特征对分割结果的约束力,以获取完整的建筑物轮廓及精确的边缘信息,本文提出了一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法。
发明内容
为了解决上述技术问题,本发明设计了一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,该方法在浅层空间路径采用Res2Net模块结合Inception Module提取浅层富尺度特征,避免浅层特征利用不当影响分割结果;在深层语义路径中以结合混合空洞卷积的ResNet50为主干网络,将获取的高级语义特征经空间金字塔池化,以捕捉更深层次的多尺度特征;最后设计了一种新的特征融合模块为两条路径提取的不同层次特征图分配权重。在WHU和Massachusetts数据集上的实验结果表明,与其他语义分割网络相比,所提方法建筑物提取精度高,泛化能力强。
为了达到上述技术效果,本发明是通过以下技术方案实现的:一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于,包括以下步骤:
Step1:深层语义路径基于混合空洞卷积的ResNet50提取不同层次的建筑物语义特征;
Step2:将提取的深层语义特征经空间金字塔处理,获取深层特征中的多尺度信息;
Step3:浅层空间路径采用较小的下采样倍数以保持图像的分辨率,主要以Res2Net模块及富尺度特征提取模块获取准确的图像空间信息;
Step4:特征融合模块,将深层特征与浅层特征自适应融合,最终获取得到有效的分割结果。
进一步的,所述Step1中深层语义特征包含了大量语义和较少位置信息,使用空间金字塔对不同区域的上下文进行聚合,对残差网络提取到的深层语义特征再进行空间金字塔处理;
混合空洞卷积计算为:
式中r为空洞率(Dilation rate),W′(x,y)为空洞卷积核,W″(x,y)为混合空洞卷积核,m∈(1,2,5,1,2,5)
进一步的,所述Step3中浅层空间路径保持较大的输出特征分辨率;针对建筑物形状多样、尺度不一,以及浅层特征纹理、空间信息复杂,在浅层空间路径中,结合Res2Net设计了一种富尺度特征提取模块,通过同时增加块外、块内的感受野,提高浅层特征对分割的映射能力。
进一步的,所述富尺度特征提取模块由卷积、平均池化、Res2Netblock组成;首先输入的特征X分别进行3×3卷积和3×3平均池化完成2倍下采样,以获取足够的感受域;再对下采样后的特征分别进行1×1卷积、卷积核为3的Res2block、卷积核为5的Res2block;最后将不同尺度的特征级联,得到输出特征Y;顾及输入特征X的分辨率大小,并未考虑卷积核为7×7的情况。
进一步的,所述Step4中特征融合模块将输入的浅层特征(X1)、深层特征(X2)先通过1×1卷积核进行降维处理,减少模型计算量,将降维后的X2进行归一化处理,得到与浅层特征图尺度相对应的权重矩阵,将其与浅层特征图相乘,完成对浅层特征中不准确信息的约束,最后将加权后的浅层特征图与深层特征图相加,得到融合后的特征X3。
进一步的,所述特征融合表达式如式(6)所示:
X3 = F(X1,X2) (5)
X3=f(X1,X2)=(K(2,1,1,c)·X1)*LN(K(2,1,1,c)·X2)+(K(2,1,1,c)·X2) (6)
其中,K(2,1,1,c)为1×1卷积核,c为卷积核通道数,2为实验采用的批量大小;在进行归一化优化特征参数时,考虑到实验训练批量较小,采用Layer-Normalization方式调整深层特征X2的数据分布,其归一化表达式如下:
式(7-9)中:m为一层中隐层节点个数,l为多层感知机的层数;μ为输入向量均值;σ为标准差;ε为维持参数稳定所设常量;为输入的第i个样本值;/>为输入的第i个样本值对应的归一化值。
本发明的有益效果是:
1)采用双路径分割网络(BiSeNet)能避免因浅层特征提取不当,影响深层特征的准确性;
2)RF-DPNet从浅层空间路径提取具有丰富空间信息的高分辨率特征,从深层语义路径获取聚合上下文信息的高级语义特征,确保了不同层次特征的高效利用;
3)本文所提出的特征融合模块,能为不同分辨率的特征图自适应分配权重,实现更好的特征融合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明整体网络架构示意图;
图2是Res2Net模块;
图3是本发明富尺度特征提取模块示意图;
图4是本发明特征融合模块示意图;
图5是模型训练mIoU与loss验证;
图6是密集建筑群提取结果;
图7是大型建筑物提取结果;
图8是多尺度建筑物提取结果;
图9是不同模型在Massachusetts数据集提取结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
1、参阅图1至图9所示,一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于,包括以下步骤:
Step1:深层语义路径基于混合空洞卷积的ResNet50提取不同层次的建筑物语义特征;
Step2:将提取的深层语义特征经空间金字塔处理,获取深层特征中的多尺度信息;
Step3:浅层空间路径采用较小的下采样倍数以保持图像的分辨率,主要以Res2Net模块及富尺度特征提取模块获取准确的图像空间信息;
Step4:特征融合模块,将深层特征与浅层特征自适应融合,最终获取得到有效的分割结果。
1.1深层语义路径结构
深层语义路径的主要作用是提供足够的感受野,提取深层语义特征。由于连续池化和下采样在获取感受野的同时也不可避免地损失了分辨率,造成建筑物细节信息丢失,Chen L C等删除了ResNet中最后两个下采样层,利用空洞卷积来扩大感受野。本文的深层语义路径则进一步采用扩张率依次为1、2、5混合空洞卷积替换下采样中常规卷积保证足够大的感受野,得到了更密集、更精准的特征图。
深层语义特征包含了大量语义和较少位置信息,使用空间金字塔对不同区域的上下文进行聚合,能有效提升网络利用全局上下文信息的能力,基于该优点本文对残差网络提取到的深层语义特征再进行空间金字塔处理。
(1)常规卷积表达式为:
式中O(x,y)为图像在(x,y)位置处的像素值,W(x,y)为与之相乘的卷积核,大小为k×k,i、j取值为[-(k-1)/2,...,0,...,(k-1)/2]。
(2)混合空洞卷积计算为:
式中r为空洞率(Dilation rate),W′(x,y)为空洞卷积核,W″(x,y)为混合空洞卷积核,m∈(1,2,5,1,2,5)
结合式(1)和式(2)可知,与常规卷积相比,空洞卷积实质上是对卷积核进行了0填充,在保证与常规卷积相同分辨率下扩大了感受野。然而连续叠加空洞率相同的卷积会产生网格效应、以及远距离信息可能不相关等问题,本文采用Dilation rate为[1,2,5...1,2,5]的循环空洞率,这种锯齿形的卷积核既能保证感受野的连贯性,而且能满足不同尺度建筑物的分割需求。
1.2浅层空间路径
浅层空间路径保持较大的输出特征分辨率,有利于编码丰富的空间特征,对建筑物边缘细节分割的好坏起着重要影响。此外,针对建筑物形状多样、尺度不一,以及浅层特征纹理、空间信息复杂,在浅层空间路径中,结合Res2Net设计了一种富尺度特征提取模块,通过同时增加块外、块内的感受野,提高浅层特征对分割的映射能力。
1.2.1多尺度特征模块Res2Net
Res2Net模块由南开大学、牛津大学和加州大学默塞德分校的研究人员共同提出,面向目标检测和分割任务。Res2Net在不增加计算负载量的情况下,增加块内的感受野,重点凸出图像中感兴趣的特征,从而提高整体模型的准确性。Res2Net模块如图2所示。
Res2Net模块首先将输入特征X进行1×1卷积调整通道,其次按通道数等分为s(图2中s=4)块,每一块是Xi,i∈{1,2,...,s}。第二个Xi开始进行3×3卷积,将卷积后特征一部分直接输出,用Ki表示,另一部分传至后一个块用Ki-1表示,Ki-1与特征子集Xi相加。经过上述处理后可得到不同数量、不同感受野的输出(yi),其中假设y2具有3×3大小的感受野,那么y3便具有5×5大小感受野,y4感受野则为7×7。然后将y1至y4融合,经1×1卷积通道调整后与原输入特征X相加,得到最终输出特征Y。Res2Net模块其先拆分后融合的策略能够使卷积更高效地处理输入特征。使用yi表示各块的输出:
1.2.2富尺度特征提取模块
遥感图像中建筑物尺寸大小不一,利用固定大小的建筑物特征将无法对一些较小尺寸的建筑物实现精细化分割,甚至会出现漏分的问题;遥感图像建筑物的分割易受背景中道路、树木及建筑物之间距离等因素影响,导致建筑物与其他物体边界相互混淆,造成建筑物边缘分割效果差。针对此问题,本文基于Inception Module思想设计了富尺度特征提取模块,如图3所示。
提出的富尺度特征提取模块由卷积、平均池化、Res2Netblock组成。首先输入的特征X分别进行3×3卷积和3×3平均池化完成2倍下采样,以获取足够的感受域;再对下采样后的特征分别进行1×1卷积、卷积核为3的Res2block、卷积核为5的Res2block;最后将不同尺度的特征级联,得到输出特征Y。顾及输入特征X的分辨率大小,并未考虑卷积核为7×7的情况。搭建富尺度特征提取模块的优势不仅有利于从块间获取多尺度特征,而且在“宽度”上顾及了大感受野,最终提取到了富尺度特征。
1.3特征融合模块
浅层特征中具有丰富的空间纹理信息,同时也存在不准确的语义信息,当前的编码解码网络一般将深层特征逐级上采样后直接与浅层特征图级联或相加,这种特征融合方式未考虑不同特征图感受野的差异,忽略了特征之间的特异性,错误地将浅层特征中不准确信息融合,从而影响后续解码过程中特征映射。鉴于此,在深浅层特征融合的过程中,本文设计了一种自适应特征融合模块,去抑制浅层特征中错误信息或冗余信息,模块示意图如图4所示。
自适应特征融合模块将输入的浅层特征(X1)、深层特征(X2)先通过1×1卷积核进行降维处理,减少模型计算量,将降维后的X2进行归一化处理,得到与浅层特征图尺度相对应的权重矩阵,将其与浅层特征图相乘,完成对浅层特征中不准确信息的约束,最后将加权后的浅层特征图与深层特征图相加,得到融合后的特征X3。该融合模块以一种简单地方式结合深层特征与浅层特征获取权重系数,为二者融合提供像素级注意力,使其更加关注重要的高分辨率特征,抑制不重要信息或错误信息,更好地平衡网络模型架构与增强模型表达能力。
特征融合表达式如式(6)所示:
X3=F(X1,X2) (5)
X3=f(X1,X2)=(K(2,1,1,c)·X1)*LN(K(2,1,1,c)·X2)+(K(2,1,1,c)·X2) (6)
其中,K(2,1,1,c)为1×1卷积核,c为卷积核通道数,2为实验采用的批量大小;在进行归一化优化特征参数时,考虑到实验训练批量较小,采用Layer-Normalization方式调整深层特征X2的数据分布,其归一化表达式如下:
式(7-9)中:m为一层中隐层节点个数,l为多层感知机的层数;μ为输入向量均值;σ为标准差;ε为维持参数稳定所设常量;为输入的第i个样本值;/>为输入的第i个样本值对应的归一化值。相较于Batch-Normalization,LN归一化统计量与batch size无关,它的数量只取决于m大小。
实施例2
2.1实验数据及平台
为充分验证本文算法的有效性,使用空间分辨率不同、建筑物特征差异较大WHU航空数据集和Massachusetts建筑物数据集进行建筑物提取实验。两个数据集介绍如下:
(1)WHU航空数据集。WHU数据集由新西兰土地信息服务(https://data.linz.govt.nz)提供,原始图像空间分辨率为0.075m,图像大小为15354像素×32507像素,实验中将数据集切分成512像素×512像素的子图,并划分为训练集、验证集、测试集。其中训练集图像数量为1330张,验证集及测试集分别为70、427张。
(2)Massachusetts建筑物数据集。该数据集由Minh建立,地表覆盖面积约为340km2,影像空间分辨率1m。原Massachusetts数据集已被划分为训练集、验证集和测试集,每张影像大小均为1500像素×1500像素。相比于WHU航空数据集,Massachusetts影像空间分辨率较低,建筑物占比较小,同时标签存在一定错误,因此对分类算法要求更高。
实验所使用的计算机配置为Intel(R)i7-9700k CPU,NVIDIA GeForce GTX1070显卡,8GB显存;深度学习框架采用Tensorflow1.14.0,以及NVIDIA公司CUDA10.0的GPU运算平台以及CUDNN7.4深度学习GPU加速库。为验证本文所提方法的有效性,对比实验分别采用Unet,Deeplabv3plus,BiSeNet,PAN,DenseASPP。实验中所有模型均采用交叉熵损失函数及Adam优化器,超参数设置(起始学习率为0.0001,总迭代次数为70次,batch_size设置为2)保证一致,其中二分类交叉熵损失函数如式(7)所示。
式(10)中:N为图像中所有像素的数量;yi指第i个像素的标签值,正类(建筑物)为1,负类(非建筑物)为0;pi表示第i个像素预测为正类的概率。
2.2分割性能评价指标
为直观有效地分析所提模型的分割精度,使用mIoU和mPA对427张场景图像的整体精度进行了评价;以Precision、Recall、F1[27]、IOU和PA作为评价指标,定量评价每张场景图像的语义分割精度。
2.3网络模型分析
2.3.1训练迭代分析
在相同实验环境下完成70次迭代训练,各个模型在WHU训练集的损失值(loss)、mIoU随迭代次数的变化曲线如图5所示。其中图5(a)为mIoU与迭代次数的变化关系,其中纵坐标表示mIoU,可以看出所提模型在前40个epoch存在轻微波动,之后模型逐渐稳定,经过70次迭代模型达到收敛状态,相对于Deeplabv3plus、BiSeNet、PAN、DenseASPP、Unet,所提模型性能更优。图5(b)中是损失值与迭代次数的变化关系,其中纵坐标表示损失值,损失值越小模型拟合度越高,从图中显然可以看出本文提出的RF-DPNet损失值明显低于对比的模型。在训练过程迭代对比结果中,RF-DPNet平均交并比与损失值均达到最优,分别为0.994和0.004。
2.3.2分割性能分析
为验证本文所提模型RF-DPNet的优势,对WHU数据集的427张验证集使用了mIoU、mPA、Recall、Precision、F1等5项指标进行分割性能评估,获取各模型五项指标平均值如表1所示,每项指标最高分数加黑显示。可以看出RF-DPNet的mIoU为91.41%、mPA为96.24%、Recall为94.79%、Precision为96.24%、F1为95.51%,每个指标平均高出其他模型1.5%以上,实验数据可表明RF-DPNet在遥感图像建筑物提取中具有很好的应用能力。
表1各模型分割性能评价指标
Tab.1Evaluation index of segmentation performance of each model
2.4不同场景下对比实验结果分析
2.4.1密集建筑群分割结果分析
图6为小尺度密集建筑物的遥感图像分割结果对比。如图可示,密集建筑群场景下建筑物排列错综复杂,而且建筑物形状、屋顶材质及光谱呈现出多种类型。在对密集区域建筑物提取中,本文所提出的方法的优势在于浅层空间路径通过Res2Net及富尺度特征提取模块,获取得到精准的建筑物空间信息,从而提高模型建筑物轮廓特征的提取能力。
由6种深度神经网络模型分割结果可知,6种模型均能确定出建筑物的位置,但建筑物的边缘分割效果差距大。BiSeNet模型在城市驾驶场景数据集中分割性优秀,但并不适用于建筑物分割,其建筑物轮廓提取效果差;Deeplabv3plus、DenseASPP、PAN边缘分割相较于BiSeNet有一定改善,但也不理想,且容易受背景影响出现错分、漏分现象;Unet在建筑物分割中仍然表现出较强的性能,但建筑物边缘拟合度低、且出现错分现象,如图6中红框标记的位置;本文方法RF-DPNet有效避免了背景中道路、树荫的影响,获到了建筑物的完整边缘信息,边界分割结果更佳。对该密集建筑群场景各模型语义分割结果进行IOU、PA、Recall、Precision、F1性能指标评价,如表2所示,相对于其他5种模型RF-DPNet方法分割精度最优。
表2建筑物密集场景下分割性能对比
Tab.2Comparison of Segmentation performance in dense Building scene
2.4.2大尺度建筑物分割结果分析
图7为大尺度建筑物场景下遥感图像分割对比。大尺度建筑物屋顶一般由多种材质构成,且易受背景中阴影、相邻地物的干扰。在大尺度建筑物场景下本文RF-DPNet方法的优势在于高级语义特征对浅层空间特征的约束,依据高级语义特征可靠性高但轮廓信息差,浅层空间特征轮廓信息丰富但不准确等特点,完成浅层空间信息和深层语义信息的高效融合。
从对比分割结果可以看出,针对大尺度建筑物场景,Deeplabv3plus、DenseASPP模型均出现了明显的错分,建筑物边缘轮廓分割较差;PAN建筑物分割较为完整,边界也取得了较好的分割结果,但受邻近“同谱异物”地物影响,个别建筑物出现漏分,且建筑物边界分割不清晰;BiSeNet在大型建筑物中分割性能相对有所提升,但由于高分辨率特征利用低的问题导致边缘分割较差;Unet在边缘及边界分割效果相对较好,但高分辨率特征利用不当,导致将非建筑物错分为建筑物;RF-DPNet克服了背景中相邻地物的干扰,且有效避免了“异物同谱”非建筑物的影响,精准地提取到遥感图像中的建筑物边缘信息,分割结果明显优于其5种对比模型。由表3定量分析对比可知,所提RF-DPNet模型在分割性能指标上仍取得最优。
表3大型建筑物分割性能对比
Tab.3Comparison of Segmentation performance of large buildings
2.4.3多尺度建筑物分割结果分析
图8为多尺度建筑物场景下遥感图像的分割实验对比,图中包含多个不同尺度的建筑物。从分割结果可以看出,6种模型均取得了相对较完整的结果。其中Deeplabv3plus、DenseASPP、Unet模型受场景相似现状集装箱的影响,均将集装箱误分为建筑物;PAN边缘分割效果好,然而受道路中“异物同谱”白色汽车的干扰,右上角建筑物未被预测;所提RF-DPNet未出现错分情况,边缘提取效果好、边界准确,整体效果最优。结合表4定量分析结果,可以得出所提RF-DPNet模型从目视效果和定量评价指标上均优于其他5种模型。
表4建筑物多尺度场景下分割性能对比
Tab.4Comparison of Segmentation performance in Building Multi-scalescene
2.5泛化能力验证
通过上述大量对比实验,可以看出融合富尺度特征双分支网络在WHU建筑物数据集上分割性能优秀。为进一步验证本文提出的RF-DPNet方法的泛化能力,采用Massachusetts数据集进行泛化实验。由于Massachusetts数据集空间分辨率较低,建筑物占比小,实验将原图像及标签裁剪为320像素×320像素大小,其中1664张用于模型训练,364张作为验证集,160张作为测试集。仍采用mIoU、mPA、Recall、Precision、F1等五项指标作为泛化实验的性能评价,对测试集160张图像计算指标值取平均得到表5。
表5各模型泛化实验精度评定
Tab.5Accuracy evaluation of each model generalization experiment
从分割评价指标(表5)可以看出,相较于Deeplabv3plus、BiSeNet、PAN、DenseASPP,RF-DPNet泛化能力强,在mIoU、mPA、Precision、F1四个指标上均达到最优,其中mIoU达0.657,类平均像素准确率(mAP)达0.759,与泛化性较强的Unet相比,mIoU、mAP分别提升了0.84%和1.4%。图9为Massachusetts数据集中两个较有代表性场景的分割对比图,由6种深度神经网络模型分割结果可知,RF-DPNet方法对不同尺度建筑物错分现象都有所改进,提取的建筑物边缘较其他方法也更为清晰。Massachusetts数据集上的泛化试验结果从目视和定量评价上均验证了本文方法的优越性,表明了RF-DPNet无论是对密集建筑群还是多尺度建筑都具有一定提取能力。
实施例3
本文提出了RF-DPNet用于改善遥感图像建筑物自动提取中高分辨率特征利用率低,建筑物边缘分割效果差、边界不清晰等问题。本文通过搭建深层语义路径和浅层空间路径分别从浅层和深层交叉学习到更丰富的空间特征和全局特征,再利用自适应特征融合对富含空间纹理信息的浅层特征进行加权约束,弥补了深层语义特征中边缘、边界信息提取的缺陷,同时过滤掉与建筑物特征无关的空间信息。在WHU和Massachusetts数据集上的试验结果表明,本文提出的方法相较于Deeplabv3+、BiSeNet、UNet、DenseASPP等方法具有更高的mIoU和mPA,能准确地提取边缘信息,且对不同场景下的建筑物都能取得较好的分割结果,具有良好的泛化能力。在已有对比实验中,RF-DPNet提取精度较高,但其提取的浅层特征中处边缘信息外,还存在其他冗余的空间信息,与深层语义特征融合时将产生冲突,降低模型分割精度。未来将考虑直接结合建筑物边缘特征进行建筑物语义分割,并尝试融合多源地理空间数据提升建筑物分割精度。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于,包括以下步骤:
Step1:深层语义路径基于混合空洞卷积的ResNet50提取不同层次的建筑物语义特征;
Step2:将提取的深层语义特征经空间金字塔处理,获取深层特征中的多尺度信息;
Step3:浅层空间路径采用小的下采样倍数以保持图像的分辨率,主要以Res2Net模块及富尺度特征提取模块获取准确的图像空间信息;所述浅层空间路径保持大的输出特征分辨率;针对建筑物形状多样、尺度不一,以及浅层特征纹理、空间信息复杂,在浅层空间路径中,结合Res2Net设计了一种富尺度特征提取模块,通过同时增加块外、块内的感受野,提高浅层特征对分割的映射能力;所述富尺度特征提取模块由卷积、平均池化、Res2Netblock组成;首先输入的特征X分别进行3×3卷积和3×3平均池化完成2倍下采样,以获取足够的感受域;再对下采样后的特征分别进行1×1卷积、卷积核为3的Res2block、卷积核为5的Res2block;最后将不同尺度的特征级联,得到输出特征Y;顾及输入特征X的分辨率大小,并未考虑卷积核为7×7的情况;
Step4:特征融合模块,将深层特征与浅层特征自适应融合,最终获取得到有效的分割结果。
2.根据权利要求1所述的一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于:所述Step1中深层语义特征包含了大量语义和较少位置信息,使用空间金字塔对不同区域的上下文进行聚合,对残差网络提取到的深层语义特征再进行空间金字塔处理;
混合空洞卷积计算为:
(2)
(3)
式中r为空洞率(Dilation rate),W′(x,y)为空洞卷积核,W″(x,y)为混合空洞卷积核,m∈(1,2,5,1,2,5)。
3.根据权利要求1所述的一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于:所述Step4中特征融合模块将输入的浅层特征(X1)、深层特征(X2)先通过1×1卷积核进行降维处理,减少模型计算量,将降维后的X2进行归一化处理,得到与浅层特征图尺度相对应的权重矩阵,将其与浅层特征图相乘,完成对浅层特征中不准确信息的约束,最后将加权后的浅层特征图与深层特征图相加,得到融合后的特征X3。
4.根据权利要求3所述的一种融合富尺度特征的双分支网络遥感图像建筑语义分割方法,其特征在于:所述特征融合表达式如式(6)所示:
(5)
(6)
其中,K(2,1,1,c)为1×1卷积核,c为卷积核通道数,2为实验采用的批量大小;在进行归一化优化特征参数时,考虑到实验训练批量小,采用Layer-Normalization方式调整深层特征X2的数据分布,其归一化表达式如下:
(7)
(8)
(9)
式(7-9)中:m为一层中隐层节点个数,l为多层感知机的层数;μ为输入向量均值;σ为标准差;ε为维持参数稳定所设常量;为输入的第i个样本值;/>输入的第i个样本值对应的归一化值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593046.3A CN114821069B (zh) | 2022-05-27 | 2022-05-27 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593046.3A CN114821069B (zh) | 2022-05-27 | 2022-05-27 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821069A CN114821069A (zh) | 2022-07-29 |
CN114821069B true CN114821069B (zh) | 2024-04-26 |
Family
ID=82518514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210593046.3A Active CN114821069B (zh) | 2022-05-27 | 2022-05-27 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821069B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242544B (zh) * | 2022-08-05 | 2023-05-30 | 河北师范大学 | 基于改进Res2net的网络安全态势感知方法及系统 |
CN115641511B (zh) * | 2022-12-02 | 2023-03-28 | 耕宇牧星(北京)空间科技有限公司 | 一种基于感受野提升网络的遥感图像野外建筑分割方法 |
CN115587337B (zh) * | 2022-12-14 | 2023-06-23 | 中国汽车技术研究中心有限公司 | 车门异响识别方法、设备和存储介质 |
CN116721351B (zh) * | 2023-07-06 | 2024-06-18 | 内蒙古电力(集团)有限责任公司内蒙古超高压供电分公司 | 一种架空线路通道内道路环境特征遥感智能提取方法 |
CN117475182B (zh) * | 2023-09-13 | 2024-06-04 | 江南大学 | 基于多特征聚合的立体匹配方法 |
CN118657945A (zh) * | 2024-08-19 | 2024-09-17 | 杭州汇萃智能科技有限公司 | 一种融合边缘特征细节的实时语义分割系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366373A (zh) * | 2013-07-10 | 2013-10-23 | 昆明理工大学 | 基于模糊相容图的多时相遥感影像变化检测方法 |
CN112163449A (zh) * | 2020-08-21 | 2021-01-01 | 同济大学 | 一种轻量化的多分支特征跨层融合图像语义分割方法 |
CN113205051A (zh) * | 2021-05-10 | 2021-08-03 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN113255676A (zh) * | 2021-05-21 | 2021-08-13 | 福州大学 | 基于多源数据融合的高分遥感影像语义分割模型及方法 |
CN113743422A (zh) * | 2021-09-07 | 2021-12-03 | 西安建筑科技大学 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
-
2022
- 2022-05-27 CN CN202210593046.3A patent/CN114821069B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366373A (zh) * | 2013-07-10 | 2013-10-23 | 昆明理工大学 | 基于模糊相容图的多时相遥感影像变化检测方法 |
CN112163449A (zh) * | 2020-08-21 | 2021-01-01 | 同济大学 | 一种轻量化的多分支特征跨层融合图像语义分割方法 |
CN113205051A (zh) * | 2021-05-10 | 2021-08-03 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN113255676A (zh) * | 2021-05-21 | 2021-08-13 | 福州大学 | 基于多源数据融合的高分遥感影像语义分割模型及方法 |
CN113743422A (zh) * | 2021-09-07 | 2021-12-03 | 西安建筑科技大学 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
Selective Multi-Scale Feature Learning by Discriminative Local Representation;CHENGJI XU 等;《IEEE》;20190918;第7卷;127327-127338 * |
Semantic Segmentation of buildings in remote Sensing Images based on Dual-path Network with Rich-scale features;Liang Huang 等;《Journal of Electronic Imaging》;20220906;1-17 * |
基于深度学习的血液细胞图像分类研究;姚凯;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20220315(第03期);E060-287 * |
多尺度特征融合空洞卷积ResNet遥感图像建筑物分割;徐胜军 等;《光学精密工程》;20200715;第28卷(第07期);1588-1599 * |
Also Published As
Publication number | Publication date |
---|---|
CN114821069A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821069B (zh) | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111259906B (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN112613392B (zh) | 基于语义分割的车道线检测方法、装置、系统及存储介质 | |
CN104268520A (zh) | 一种基于深度运动轨迹的人体动作识别方法 | |
CN113920468B (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN114419413A (zh) | 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN103049340A (zh) | 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法 | |
CN114677722A (zh) | 一种融合多尺度特征的多监督人脸活体检测方法 | |
CN111047603A (zh) | 一种基于新型马尔可夫随机场和区域合并的航拍图像混合分割算法 | |
CN117611998A (zh) | 一种基于改进YOLOv7的光学遥感图像目标检测方法 | |
CN116630971A (zh) | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 | |
CN117409358A (zh) | 一种融合BiFPN的轻量化火焰检测方法 | |
CN111222534A (zh) | 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法 | |
Lv et al. | Contour deformation network for instance segmentation | |
CN113989256A (zh) | 遥感图像建筑物的检测模型优化方法及检测方法、装置 | |
CN113076806A (zh) | 一种结构增强的半监督在线地图生成方法 | |
CN117218348A (zh) | 一种基于跨模态对齐融合的rgb-d语义分割方法 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116342877A (zh) | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 | |
CN116310811A (zh) | 一种基于高分辨卷积网络及上下文信息编码的语义变化检测方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |