CN115222750A - 基于多尺度融合注意力的遥感图像分割方法及系统 - Google Patents

基于多尺度融合注意力的遥感图像分割方法及系统 Download PDF

Info

Publication number
CN115222750A
CN115222750A CN202210892653.XA CN202210892653A CN115222750A CN 115222750 A CN115222750 A CN 115222750A CN 202210892653 A CN202210892653 A CN 202210892653A CN 115222750 A CN115222750 A CN 115222750A
Authority
CN
China
Prior art keywords
feature
relu
features
convolution
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210892653.XA
Other languages
English (en)
Inventor
李继文
刘光灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210892653.XA priority Critical patent/CN115222750A/zh
Publication of CN115222750A publication Critical patent/CN115222750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度融合注意力的遥感图像分割方法及系统,该方法包括:1)多尺度特征表示(MFR);2)特征融合注意力(FFA);3)特征细化(FRM);4)评估;本发明方法使模型能够在学习遥感图像的过程中逐步细化高分辨率特征,且有效缓解因图像背景复杂、类别尺寸差异大造成的误分类、漏分类问题。从而提高遥感图像的分割效果。

Description

基于多尺度融合注意力的遥感图像分割方法及系统
技术领域
本发明属于计算机科学人工智能领域,具体涉及一种基于多尺度融合注意力的遥感图像分割方法及系统,用于高分辨率遥感图像的分割任务。
背景技术
随着遥感技术的快速发展,遥感设备不断更新,遥感图像的分辨率和数据量也越来越大。正应如此,遥感图像的应用发展到了场景分类,物体检测,目标分割等方面
高分辨率遥感图像的语义分割为图像中逐像素的每个类分配标签,以此获得物体的位置和语义信息,是一种像素级分类。不论是在城市道路监测,建筑物检测还是植被提取等领域上,遥感图像分割都有广泛应用。与自然场景相比,地理空间目标分割在高分辨率遥感图像上,更具挑战性。在许多自然场景类别中,不同的对象类别通常具有很强的相互依赖性,而遥感图像不同于自然场景,不太需要依赖过多的目标类别。一般在高分辨率的遥感图像中,物体会有较大的尺寸变化,在目标的定位和识别上相比于自然场景也有一定的困难。
现阶段,由于遥感图像的复杂背景以及高分辨率问题,传统的分割方法无法准确地提取遥感图像中的类别信息,如聚类、小波分析、支持向量机、阈值法等等。随着深度卷积神经网络的出现,近年来,基于深度学习的语义分割方法在遥感领域的研究也得到了发展。Long等人于2015年提出了完全卷积神经网络FCN,该网络是第一个端到端的完全卷积神经网络,相比于传统的卷积神经网络,他将网络中的全连接层替换为卷积层,能够有效的完成图像的分割任务。在这之后,Ronneberger等人设计了U-net网络,这是一种U型结构的网络模型,应用于医学图像的分割,它的编码和解码结构相互对应,能够有效的联合高层和底层的特征信息,防止细节信息的丢失。Badrinarayanan等人提出了SegNet,这个网络将最大池化指数转移到了解码器中,改善了分割的分辨率。Zhao等人提出了金字塔场景解析网络PSPNet,该网络利用金字塔网络架构来聚合不同卷积层之间的特征,挖掘全局上下文信息。之后,Chen等人提出的DeeplabV3+使用阿托斯卷积获得多尺度上下文信息,并且在得到更大感受野的同时,不会带来过多的计算量。
尽管高分辨率遥感分割技术在最近的几年里取得了一定的成功,但是从长远的角度来看,仍然存在局限性。首先,遥感图像里大部分为高分辨率图像,图像中的物体通常具有不同大小。例如,在自上而下的视角下,我们发现视图中建筑物占据了大部分的像素区域,而汽车和植被等小物体只占据了较小的区域,单一大小的感受野很难获得具有足够表征能力的物体特征,这就导致了多尺度现象。其次,遥感图像中背景复杂,前景类别和背景差异较大,容易造成相似目标的错误识别问题。最后,高分辨率的遥感图像分割结果往往不清晰,并且在目标边界附近产生大量噪声。
发明内容
本发明提供了一种,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
基于多尺度融合注意力的遥感图像分割方法:
获取数据集图像,将数据集图像输入预先构建的残差网络ResNet-50得到深层语义特征信息,再将得到的特征信息输入预先构建的多尺度特征表示模块中,多尺度特征表示模块通过不同空洞率的空洞卷积进行特征聚合;
对深层语义特征信息和多尺度特征表示模块的输出特征信息进行降维,然后输入预先构建的特征融合模块FFA,特征融合模块FFA按高层到底层顺序将降维后的特征依次融合;
将融合后的特征输入预先构建的特征细化模块,特征细化模块降低通道数,减少计算量,进行了两次感受野不同的细化,逐步细化特征图。
进一步地:
多尺度特征表示模块通过不同空洞率的空洞卷积进行特征聚合,输出特征矩阵M4,
Figure BDA0003768206720000031
Figure BDA0003768206720000032
式中,M表示ResNet-50最后一层输出;
Figure BDA0003768206720000033
表示卷积核大小为3,空洞率为1的空洞卷积运算;BN表示进一步的批量归一化;ReLU表示非线性激活层;GAP表示全局平均池化层;UP表示上采样到原图大小;Concat表示将各个特征在通道数维度相加。
进一步地:
所述深层语义特征信息为特征矩阵M1、特征矩阵M2和特征矩阵M3
对特征矩阵M1进行降维得到:
T1=ReLU(BN(C1×1(M1)))
对特征矩阵M2进行降维得到:
T2=ReLU(BN(C1×1(M2)))
对特征矩阵M3进行降维得到:
T3=ReLU(BN(C1×1(M3)))
对特征矩阵M4进行降维得到:
T4=ReLU(BN(C1×1(M4)))
式中,C1×1表示有卷积核大小为1的卷积运算;BN表示进一步的批量归一化,加快训练速度;ReLU表示非线性激活层,用于减少参数相互依赖性,缓解过拟合现象。
进一步地:
特征融合模块FFA按高层到底层顺序将降维后的特征依次融合的过程为:所述特征融合模块FFA包括三个融合模块,将T4和T3输入第一个融合模块,T4作为第一个融合模块的高层语义特征,T3作为底层语义特征,特征矩阵T4先进行上采样操作,得到和T3尺寸相同的特征矩阵,通过加和操作来融合两者得到融合后的特征矩阵I3;最后用卷积核大小为3的卷积对I3降维,输出和T3相同大小的特征矩阵K3
I3=Concat(UP(T4),T3)
K3=ReLU(BN(C3×3(I3)))
式中,UP表示向上采样,将T4还原到T3的尺寸大小,Concat是加和操作,将高层特征和底层特征按通道数相加,最后通过卷积操作减少通道数到底层特征T3的大小;
然后使用全局平均池化引导底层特征信息,假设高层特征为T4=[t1,t2,…tc1]∈Rc1×h×w,底层特征为K3=[k1,k2,…kc2]∈Rc2×h×w,在高层语义特征T4上作全局平均池化操作获得全局信息,获得的全局信息表示为A∈Rc1×1×1,该过程表示为:
Figure BDA0003768206720000041
式中,h,w分别表示为特征图的长和宽,Ak第k层的特征权重值;
A经过1×1的卷积降维后得到长和宽都为1,通道数为C2的特征矩阵,通过Sigmoid激活函数将权重值划分在[0,1]之间生成权向量V∈Rc2×1×1,权向量和底层特征K3相乘,之后是1×1卷积运算,BN批量归一化和ReLU激活,该过程表示为:
U3=ReLU(BN(C1×1(K3×V)))
式中,U3表示浅层特征经过权向量乘积后的输出;
最后,在高层特征T4上执行上采样操作,使T4上的元素和低级特征图T3一一对应,然后,两个特征图按对应像素直接相加,公式如下:
P3=UP(T4)+U3
同理,输入高层特征P3和底层特征T2到第二个融合模块中得到高层特征P2,输入高层特征P2和底层特征T1到第三个融合模块中最终得到高层特征P1
相应地,基于多尺度融合注意力的遥感图像分割系统,包括:
多尺度特征表示模块MFR:包含残差网络ResNet-50,将数据集图像输入残差网络ResNet-50得到深层语义特征信息,再将得到的特征信息输入通过不同空洞率的空洞卷积进行特征聚合;
特征融合模块FFA:用于对深层语义特征信息和多尺度特征表示模块的输出特征信息进行降维,然后按高层到底层顺序将降维后的特征依次融合;
特征细化模块FRM:用于将融合后的特征输入预先构建后降低通道数,减少计算量,进行了两次感受野不同的细化,逐步细化特征图。
进一步地:
多尺度特征表示模块MFR通过不同空洞率的空洞卷积进行特征聚合,输出特征矩阵M4,
Figure BDA0003768206720000061
Figure BDA0003768206720000062
式中,M表示ResNet-50最后一层输出;
Figure BDA0003768206720000063
表示卷积核大小为3,空洞率为1的空洞卷积运算;BN表示进一步的批量归一化;ReLU表示非线性激活层;GAP表示全局平均池化层;UP表示上采样到原图大小;Concat表示将各个特征在通道数维度相加。
进一步地:
所述残差网络ResNet-50输出的深层语义特征信息为特征矩阵M1、特征矩阵M2和特征矩阵M3
对特征矩阵M1进行降维得到:
T1=ReLU(BN(C1×1(M1)))
对特征矩阵M2进行降维得到:
T2=ReLU(BN(C1×1(M2)))
对特征矩阵M3进行降维得到:
T3=ReLU(BN(C1×1(M3)))
对特征矩阵M4进行降维得到:
T4=ReLU(BN(C1×1(M4)))
式中,C1×1表示有卷积核大小为1的卷积运算;BN表示进一步的批量归一化,加快训练速度;ReLU表示非线性激活层,用于减少参数相互依赖性,缓解过拟合现象。
进一步地:
特征融合模块FFA按高层到底层顺序将降维后的特征依次融合的过程为:所述特征融合模块FFA包括三个融合模块,将T4和T3输入第一个融合模块,T4作为第一个融合模块的高层语义特征,T3作为底层语义特征,特征矩阵T4先进行上采样操作,得到和T3尺寸相同的特征矩阵,通过加和操作来融合两者得到融合后的特征矩阵I3;最后用卷积核大小为3的卷积对I3降维,输出和T3相同大小的特征矩阵K3
I3=Concat(UP(T4),T3)
K3=ReLU(BN(C3×3(I3)))
式中,UP表示向上采样,将T4还原到T3的尺寸大小,Concat是加和操作,将高层特征和底层特征按通道数相加,最后通过卷积操作减少通道数到底层特征T3的大小。
然后使用全局平均池化引导底层特征信息,假设高层特征为T4=[t1,t2,…tc1]∈Rc1×h×w,底层特征为K3=[k1,k2,…kc2]∈Rc2×h×w,在高层语义特征T4上作全局平均池化操作获得全局信息,获得的全局信息表示为A∈Rc1×1×1,该过程表示为:
Figure BDA0003768206720000071
式中,h,w分别表示为特征图的长和宽,Ak第k层的特征权重值;
A经过1×1的卷积降维后得到长和宽都为1,通道数为C2的特征矩阵,通过Sigmoid激活函数将权重值划分在[0,1]之间生成权向量V∈Rc2×1×1,权向量和底层特征K3相乘,之后是1×1卷积运算,BN批量归一化和ReLU激活,该过程表示为:
U3=ReLU(BN(C1×1(K3×V)))
式中,U3表示浅层特征经过权向量乘积后的输出;
最后,在高层特征T4上执行上采样操作,使T4上的元素和低级特征图T3一一对应,然后,两个特征图按对应像素直接相加,公式如下:
P3=UP(T4)+U3
同理,输入高层特征P3和底层特征T2到第二个融合模块中得到高层特征P2,输入高层特征P2和底层特征T1到第三个融合模块中最终得到高层特征P1
相应地:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述的方法中的任一方法。
相应地,一种计算设备,包括:
一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述的方法中的任一方法的指令。
本发明所达到的有益效果:
本发明的基于多尺度融合注意力的遥感图像分割方法及系统,使模型能够在学习的过程中更加高效的学习到不同层之间的特征,对于复杂背景的误分类问题能有效缓解,同时高分辨率的边界噪声也能降低。
附图说明
图1为本方法的总体结构示意图;
图2为多尺度特征表示模块的结构示意图;
图3为特征融合注意力模块的结构示意图;
图4为特征细化模块的结构示意图;
图5为本发明方法在高分辨率遥感图像Potsdam数据集上的可视化结果示意图。
图6为本发明方法在高分辨率遥感图像Vaihingen数据集上的可视化结果示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
基于多尺度融合的高分辨率遥感图像分割系统,如图1所示由多尺度特征表示模块、特征融合注意力模块和特征细化模块组成。
1)多尺度特征表示:按如下方法从给定的数据集中提取图像多尺度特征信息:
如图2所示,首先将数据集图像输入残差网络ResNet-50得到深层语义特征信息,再将得到的特征信息输入多尺度特征表示模块中,该模块通过不同空洞率的空洞卷积进行特征聚合,具体过程按如下公式表示。
Figure BDA0003768206720000091
式中,M表示ResNet-50最后一层输出;
Figure BDA0003768206720000092
表示卷积核大小为3,空洞率为1的空洞卷积运算;BN表示进一步的批量归一化;ReLU表示非线性激活层;GAP表示全局平均池化层;UP表示上采样到原图大小;Concat表示将各个特征在通道数维度相加。
2)特征融合注意力:对通过ResNet-50各个残差块输出的特征矩阵M1、特征矩阵M2和特征矩阵M3和多尺度特征表示的输出特征矩阵M4进行降维操作,然后依次输入三个特征融合模块FFA中,如图3所示,其具体步骤如下:
2.1)使用卷积核大小为1的卷积对输入特征进行降维:
首先将步骤1中提取的特征矩阵M4和ResNet50的三层卷积层输出M1、M2、M3提取出来,在输入该模块之前用大小为一的卷积核进行降维,降维后对应的通道数分别为[256,512,1024,2048],该过程可用如下公式表示:
T1=ReLU(BN(C1×1(M1)))
T2=ReLU(BN(C1×1(M2)))
T3=ReLU(BN(C1×1(M3)))
T4=ReLU(BN(c1×1(M4)))
式中,C1×1表示有卷积核大小为1的卷积运算;BN表示进一步的批量归一化,加快训练速度;ReLU表示非线性激活层,减少参数相互依赖性,缓解过拟合现象。
2.2)按高层到底层顺序将降维后的特征依次融合输出:
首先将T4和T3输入第一个融合模块FFA中。T4作为该模块的高层语义特征,T3作为底层语义特征,特征矩阵T4先进行上采样操作,得到和T3尺寸相同的特征矩阵,在模块中通过加和操作来融合两者得到融合后的特征矩阵I3;最后用卷积核大小为3的卷积对I3降维,输出和T3相同大小的特征矩阵K3
I3=Concat(UP(T4),T3)
K3=ReLU(BN(C3×3(I3)))
式中,UP表示向上采样,将T4还原到T3的尺寸大小,Concat是加和操作,将高层特征和底层特征按通道数相加,最后通过卷积操作减少通道数到底层特征T3的大小。
然后,使用全局平均池化引导底层特征信息。假设高层特征为T4=[t1,t2,…tc1]∈Rc1×h×w,底层特征为K3=[k1,k2,…kc2]∈Rc2×h×w,我们在高层语义特征T4上作全局平均池化操作获得全局信息,获得的全局信息表示为A∈Rc1×1×1,该过程可以表示为:
Figure BDA0003768206720000111
式中,h,w分别表示为特征图的长和宽,Ak第k层的特征权重值。
A经过1×1的卷积降维后得到长和宽都为1,通道数为C2的特征矩阵,通过Sigmoid激活函数将权重值划分在[0,1]之间生成权向量V∈Rc2×1×1。权向量和底层特征K3相乘,增强了通道之间的相关性。之后是1×1卷积运算,BN批量归一化和ReLU激活等操作。具体实现如下:
U3=ReLU(BN(C1×1(K3×V)))
式中,U3表示浅层特征经过权向量乘积后的输出。
最后,在高层特征T4上执行上采样操作,使T4上的元素和低级特征图T3一一对应,然后,两个特征图按对应像素直接相加,公式如下:
P3=UP(T4)+U3
2.3)重复上两步操作,输入高层特征P3和底层特征T2到第二个融合模块中得到P2,输入高层特征P2和底层特征T1到第三个融合模块中最终得到P1
3)特征细化:在上采样之前对通道阶梯细化操作。
如图4所示,该模块的第一层是一个1×1的卷积,我们使用它来降低通道数,减少计算量。同时,它还可以组合来自所有渠道的信息。接下来是残差网络中的一个基本残差单元,这个残差单元中包含3×3和5×5的卷积层相当于进行了两次感受野不同的细化操作。通过这种方式以实现逐步细化特征图的目标。
4)评估:如图5、6所示,在公开的Potsdam数据集和Vaihingen数据集进行的实验表明,我们的方法在遥感图像分割有一定的效果,有效缓解因图像背景复杂、类别尺寸差异大造成的误分类、漏分类问题。
应用实施例一:
本应用实施例采用实施例一中的基于多尺度融合注意力的遥感图像分割方法,将其应用于高分辨率遥感图像的数据集Potsdam和Vaihingen上验证其有效性。实验结果如表1,表2和表3所示。
如下表1所示,结合评价指标MIoU、OA和F1-score的含义可知,本方法在遥感分割数据集Potsdam上效果显著,网络中添加的多尺度特征表示模块(MFR)、特征融合注意力模块(FFA)和特征细化模块(FRM)均有一定效果,与Baseline相比,FFANet的MIoU和OA分别提升了2.6%和1.6%,同时各个类别的IoU也有相应的提升。证明了该网络能够有效地提升分割精度。为了进一步证明我们的网络对遥感分割图像的有效性,我们对网络消融实验的各个阶段进行了可视化。图1展示了遥感图像在网络各个阶段的分割结果。如图1的第二行图片所示,当仅使用ResNet-50进行分割时,特征提取不全,像淡蓝色的低矮植被这一类别出现了断层,同时树木和低矮植被这两个特征相近的类别识别率较差。加入MFR和FFA模块之后,特征提取得到了优化,误分类问题也得到了缓解。在同时使用MFR,FFA和FRM三个模块时,我们发现每个类别边缘噪声降低,分割边缘结果更加清晰。
表1 FFANet在Potsdam数据集上的消融实验
Table 1 Ablation experiment of FFANet on Potsdam dataset
Figure BDA0003768206720000131
注:加粗字体为最优结果。
如表2所示。为了对网络作更全面的评估,我们在Potsdam数据集上将模型与现有的五个经典网络作对比。FCN的MIoU和OA指标最低,因为它使用VGG16作为骨干网络,相比于ResNet-50特征提取能力较弱。PSPNet使用了金字塔池化模块提取上下文信息,DeeplabV3+使用了空洞卷积增大了感受野,在一定程度上都提升了分割的精度。但这些网络在特征融合部分没有考虑到浅层特征和深层特征之间的联系,只是在通道维度上直接拼接,对复杂的遥感图像背景特征提取力较差。我们提出的FFANet网络利用注意力机制建立了不同特征层之间的联系,同时MIoU和OA指标均超过这些语义分割模型。FFANet的MIoU,OA和F1-socre分别达到了74.4%,87.7%和84.9%。
表2 FFANet在Potsdam数据集上的对比实验
Table 2 Ablation experiment of FFANet on Potsdam data set
Figure BDA0003768206720000132
注:加粗字体为最优结果。
为了验证模型的泛化能力,在Vaihingen数据集上进行了消融实验,实验结果如表3所示,从表中数据可以得知网络的三个模块在Vaihingen数据集也有一定效果。可视化结果如图3所示,Baseline由于没有进行多尺度特征表示以及特征融合,特征提取不全,分割结果较差。而多尺度特征表示模块(MFR)、特征融合注意力模块(FFA)和特征细化模块(FRM)使网络能够分割出原先无法识别的目标,纠正了错误的分类,提高了分割的精度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行基于多尺度融合注意力的遥感图像分割方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行基于多尺度融合注意力的遥感图像分割方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.基于多尺度融合注意力的遥感图像分割方法,其特征在于:
获取数据集图像,将数据集图像输入预先构建的残差网络ResNet-50得到深层语义特征信息,再将得到的特征信息输入预先构建的多尺度特征表示模块中,多尺度特征表示模块通过不同空洞率的空洞卷积进行特征聚合;
对深层语义特征信息和多尺度特征表示模块的输出特征信息进行降维,然后输入预先构建的特征融合模块FFA,特征融合模块FFA按高层到底层顺序将降维后的特征依次融合;
将融合后的特征输入预先构建的特征细化模块,特征细化模块降低通道数,减少计算量,进行了两次感受野不同的细化,逐步细化特征图。
2.根据权利要求1所述的基于多尺度融合注意力的遥感图像分割方法,其特征在于:
多尺度特征表示模块通过不同空洞率的空洞卷积进行特征聚合,输出特征矩阵M4
Figure FDA0003768206710000011
Figure FDA0003768206710000012
式中,M表示ResNet-50最后一层输出;
Figure FDA0003768206710000013
表示卷积核大小为3,空洞率为1的空洞卷积运算;BN表示进一步的批量归一化;ReLU表示非线性激活层;GAP表示全局平均池化层;UP表示上采样到原图大小;Concat表示将各个特征在通道数维度相加。
3.根据权利要求2所述的基于多尺度融合注意力的遥感图像分割方法,其特征在于:所述深层语义特征信息为特征矩阵M1、特征矩阵M2和特征矩阵M3
对特征矩阵M1进行降维得到:
T1=ReLU(BN(C1×1(M1)))
对特征矩阵M2进行降维得到:
T2=ReLU(BN(C1×1(M2)))
对特征矩阵M3进行降维得到:
T3=ReLU(BN(C1×1(M3)))
对特征矩阵M4进行降维得到:
T4=ReLU(BN(C1×1(M4)))
式中,C1×1表示有卷积核大小为1的卷积运算;BN表示进一步的批量归一化,加快训练速度;ReLU表示非线性激活层,用于减少参数相互依赖性,缓解过拟合现象。
4.根据权利要求3所述的基于多尺度融合注意力的遥感图像分割方法,其特征在于:特征融合模块FFA按高层到底层顺序将降维后的特征依次融合的过程为:所述特征融合模块FFA包括三个融合模块,将T4和T3输入第一个融合模块,T4作为第一个融合模块的高层语义特征,T3作为底层语义特征,特征矩阵T4先进行上采样操作,得到和T3尺寸相同的特征矩阵,通过加和操作来融合两者得到融合后的特征矩阵I3;最后用卷积核大小为3的卷积对I3降维,输出和T3相同大小的特征矩阵K3
I3=Concat(UP(T4),T3)
K3=ReLU(BN(C3×3(I3)))
式中,UP表示向上采样,将T4还原到T3的尺寸大小,Concat是加和操作,将高层特征和底层特征按通道数相加,最后通过卷积操作减少通道数到底层特征T3的大小;
然后使用全局平均池化引导底层特征信息,假设高层特征为T4=[t1,t2,…tc1]∈Rc1 ×h×w,底层特征为K3=[k1,k2,…kc2]∈Rc2×h×w,在高层语义特征T4上作全局平均池化操作获得全局信息,获得的全局信息表示为A∈Rc1×1×1,该过程表示为:
Figure FDA0003768206710000031
式中,h,w分别表示为特征图的长和宽,Ak第k层的特征权重值;
A经过1×1的卷积降维后得到长和宽都为1,通道数为C2的特征矩阵,通过Sigmoid激活函数将权重值划分在[0,1]之间生成权向量V∈Rc2×1×1,权向量和底层特征K3相乘,之后是1×1卷积运算,BN批量归一化和ReLU激活,该过程表示为:
U3=ReLU(BN(C1×1(K3×V)))
式中,U3表示浅层特征经过权向量乘积后的输出;
最后,在高层特征T4上执行上采样操作,使T4上的元素和低级特征图T3一一对应,然后,两个特征图按对应像素直接相加,公式如下:
P3=UP(T4)+U3
同理,输入高层特征P3和底层特征T2到第二个融合模块中得到高层特征P2,输入高层特征P2和底层特征T1到第三个融合模块中最终得到高层特征P1
5.基于多尺度融合注意力的遥感图像分割系统,其特征在于:包括:
多尺度特征表示模块MFR:包含残差网络ResNet-50,将数据集图像输入残差网络ResNet-50得到深层语义特征信息,再将得到的特征信息输入通过不同空洞率的空洞卷积进行特征聚合;
特征融合模块FFA:用于对深层语义特征信息和多尺度特征表示模块的输出特征信息进行降维,然后按高层到底层顺序将降维后的特征依次融合;
特征细化模块FRM:用于将融合后的特征输入预先构建后降低通道数,减少计算量,进行了两次感受野不同的细化,逐步细化特征图。
6.根据权利要求5所述的基于多尺度融合注意力的遥感图像分割系统,其特征在于:
多尺度特征表示模块MFR通过不同空洞率的空洞卷积进行特征聚合,输出特征矩阵M4
Figure FDA0003768206710000041
Figure FDA0003768206710000042
式中,M表示ResNet-50最后一层输出;
Figure FDA0003768206710000043
表示卷积核大小为3,空洞率为1的空洞卷积运算;BN表示进一步的批量归一化;ReLU表示非线性激活层;GAP表示全局平均池化层;UP表示上采样到原图大小;Concat表示将各个特征在通道数维度相加。
7.根据权利要求6所述的基于多尺度融合注意力的遥感图像分割系统,其特征在于:所述残差网络ResNet-50输出的深层语义特征信息为特征矩阵M1、特征矩阵M2和特征矩阵M3
对特征矩阵M1进行降维得到:
T1=ReLU(BN(C1×1(M1)))
对特征矩阵M2进行降维得到:
T2=ReLU(BN(C1×1(M2)))
对特征矩阵M3进行降维得到:
T3=ReLU(BN(C1×1(M3)))
对特征矩阵M4进行降维得到:
T4=ReLU(BN(C1×1(M4)))
式中,C1×1表示有卷积核大小为1的卷积运算;BN表示进一步的批量归一化,加快训练速度;ReLU表示非线性激活层,用于减少参数相互依赖性,缓解过拟合现象。
8.根据权利要求7所述的基于多尺度融合注意力的遥感图像分割系统,其特征在于:特征融合模块FFA按高层到底层顺序将降维后的特征依次融合的过程为:所述特征融合模块FFA包括三个融合模块,将T4和T3输入第一个融合模块,T4作为第一个融合模块的高层语义特征,T3作为底层语义特征,特征矩阵T4先进行上采样操作,得到和T3尺寸相同的特征矩阵,通过加和操作来融合两者得到融合后的特征矩阵I3;最后用卷积核大小为3的卷积对I3降维,输出和T3相同大小的特征矩阵K3
I3=Concat(UP(T4),T3)
K3=ReLU(BN(C3×3(I3)))
式中,UP表示向上采样,将T4还原到T3的尺寸大小,Concat是加和操作,将高层特征和底层特征按通道数相加,最后通过卷积操作减少通道数到底层特征T3的大小。
然后使用全局平均池化引导底层特征信息,假设高层特征为T4=[t1,t2,…tc1]∈Rc1 ×h×w,底层特征为K3=[k1,k2,…kc2]∈Rc2×h×w,在高层语义特征T4上作全局平均池化操作获得全局信息,获得的全局信息表示为A∈Rc1×1×1,该过程表示为:
Figure FDA0003768206710000061
式中,h,w分别表示为特征图的长和宽,Ak第k层的特征权重值;
A经过1×1的卷积降维后得到长和宽都为1,通道数为C2的特征矩阵,通过Sigmoid激活函数将权重值划分在[0,1]之间生成权向量V∈Rc2×1×1,权向量和底层特征K3相乘,之后是1×1卷积运算,BN批量归一化和ReLU激活,该过程表示为:
U3=ReLU(BN(C1×1(K3×V)))
式中,U3表示浅层特征经过权向量乘积后的输出;
最后,在高层特征T4上执行上采样操作,使T4上的元素和低级特征图T3一一对应,然后,两个特征图按对应像素直接相加,公式如下:
P3=UP(T4)+U3
同理,输入高层特征P3和底层特征T2到第二个融合模块中得到高层特征P2,输入高层特征P2和底层特征T1到第三个融合模块中最终得到高层特征P1
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。
CN202210892653.XA 2022-07-27 2022-07-27 基于多尺度融合注意力的遥感图像分割方法及系统 Pending CN115222750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210892653.XA CN115222750A (zh) 2022-07-27 2022-07-27 基于多尺度融合注意力的遥感图像分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892653.XA CN115222750A (zh) 2022-07-27 2022-07-27 基于多尺度融合注意力的遥感图像分割方法及系统

Publications (1)

Publication Number Publication Date
CN115222750A true CN115222750A (zh) 2022-10-21

Family

ID=83613793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892653.XA Pending CN115222750A (zh) 2022-07-27 2022-07-27 基于多尺度融合注意力的遥感图像分割方法及系统

Country Status (1)

Country Link
CN (1) CN115222750A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862252A (zh) * 2023-06-13 2023-10-10 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN118015285A (zh) * 2024-04-09 2024-05-10 齐鲁工业大学(山东省科学院) 基于改进Unet的脑肿瘤病理图像细胞分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862252A (zh) * 2023-06-13 2023-10-10 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN116862252B (zh) * 2023-06-13 2024-04-26 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN118015285A (zh) * 2024-04-09 2024-05-10 齐鲁工业大学(山东省科学院) 基于改进Unet的脑肿瘤病理图像细胞分割方法

Similar Documents

Publication Publication Date Title
CN111860386B (zh) 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
CN111696110B (zh) 场景分割方法及系统
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
US11935213B2 (en) Laparoscopic image smoke removal method based on generative adversarial network
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN111325766A (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN117197763A (zh) 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统
CN112465700A (zh) 一种基于深度聚类的图像拼接定位装置及方法
Zhang et al. Residual attentive feature learning network for salient object detection
CN112085680B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination