CN114820655B - 可靠区域作为注意力机制监督的弱监督建筑物分割方法 - Google Patents

可靠区域作为注意力机制监督的弱监督建筑物分割方法 Download PDF

Info

Publication number
CN114820655B
CN114820655B CN202210444884.4A CN202210444884A CN114820655B CN 114820655 B CN114820655 B CN 114820655B CN 202210444884 A CN202210444884 A CN 202210444884A CN 114820655 B CN114820655 B CN 114820655B
Authority
CN
China
Prior art keywords
loss function
network
reliable
pixel
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210444884.4A
Other languages
English (en)
Other versions
CN114820655A (zh
Inventor
徐炜锋
陈珺
官文俊
罗林波
熊永华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202210444884.4A priority Critical patent/CN114820655B/zh
Publication of CN114820655A publication Critical patent/CN114820655A/zh
Application granted granted Critical
Publication of CN114820655B publication Critical patent/CN114820655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,包括以下步骤:构建弱监督语义分割网络,网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;获取建筑物图像和人工标记的分类标签作为训练集,利用训练集对分类网络进行训练,得到初始种子,将初始种子输入可靠区域合成模块中得到可靠标签;用训练集对基于像素注意力模块和孪生网络结构的类激活映射模块进行训练,得到类激活映射;最后用生成的可靠标签作为类激活映射的监督,得到伪标签,使用伪标签训练现有网络得到最终的建筑物分割结果。本发明仅通过分类标签实现了像素级语义分割。

Description

可靠区域作为注意力机制监督的弱监督建筑物分割方法
技术领域
本发明属于图像分割领域,尤其涉及一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。
背景技术
随着传感器技术和无人机技术的发展,利用无人机获取建筑物足迹已成为近年来高分辨率图像分割和目标检测的一个重要研究方向。它被广泛应用于数字城市、军事侦察、灾害评估等领域。近年来,随着深度神经网络的发展,语义分割任务取得了很大的进展,但该领域仍面临一个很大的挑战是缺乏大规模的像素级分割标签,目前语义分割任务主要面对较低分辨率的自然场景图像,但在遥感领域的研究还较少,主要原因是在从自然场景任务转换到遥感任务,受真实标签数量少的限制,尤其是缺少像素级分割标签。在较低分辨率的COCO数据集中,COCO数据集的标注人员需要花费4.1秒按类别标记一副图像,花费10.1分钟按像素级分类标注一副图像(像素级标注所需时间是图像级标注的150倍),对于较低分辨率的COCO数据集一副图像都需要耗费如此长的时间,那对于高分辨率的遥感图像则需要耗费更多的时间和人力成本。因此近年来人们致力于使用弱监督语义分割(WSSS)来研究语义分割任务,WSSS使用图像级分类标签、涂鸦和边界框等弱监督方式,试图实现与完全监督同等的分割性能,其中图像级标签是获取方式最容易监督标签也是监督信息最弱的监督标签。
目前,主流的弱监督方法都基于类激活图(CAM),该方法通过图像分类标签训练分类网络使得分类器获得目标对象的定位图。虽然CAM可以识别目标对象最具显著性的区域,但是CAM有三个主要的障碍,使其无法直接作为分割网络训练的伪标签:(1)欠激活:CAM通常只覆盖对象最具显著性的部分而不是对对象的整个区域做出响应。(2)过激活:CAM会引入过度激活等噪音,即存在背景区域错误激活为前景。(3)不一致性:当原始图像经过仿射变换后,对同一副图像生成的CAM图存在不一致性。这些现象的根本原因来自完全监督和弱监督语义分割之间的监督差距。
发明内容
为了解决现有技术存在的问题,本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法来缩小监督上的差距。为解决CAM的欠激活问题,本申请引入了像素注意力模块(PAM)、孪生网络和等变约束使得每个像素能捕获的更多的上下文外观信息。为解决过度激活问题,本申请设计了可靠伪像素标签作为监督。
本发明的技术方案提供一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,方法包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并提供等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
进一步地,步骤S2-S3具体如下:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
进一步地,步骤S7中,所述等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的类激活映射CAM,Mt代表仿射变化对应的CAM。
进一步地,步骤S8中,可靠区域损失函数定义如下:
其中M是步骤S5得到的改进的高级特征映射;R是步骤S3得到的可靠标签;H、W表示输入图像的宽、高。
进一步地,步骤S9中,损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。
本发明的有益效果是:极大的降低了像素标注的时间成本和人力成本。
附图说明
图1是本发明提供的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法的流程示意图;
图2是本发明弱监督建筑物分割网络的结构图;
图3是本发明像素注意力模块示意图;
图4是本发明的定性结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。请参考图1,图1是本发明方法的流程图;方法包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并提供等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
请参考图2,图2是本发明弱监督建筑物分割网络的结构图;
步骤S2-S3中,合成可靠区域标签的具体过程为:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
步骤S4-S6,得到类激活映射的具体过程为:
S3.1:给定第二分类网络,训练第二分类网络(CNN)得到高级特征映射f。f作为像素注意力模块的输入。像素注意力模块挖掘像素之间的相似性从而得到改进的高级特征映射。
请参考图3,图3是本发明像素注意力模块示意图;
所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。
孪生网络结构在网络的训练过程中共享权值,提供等变约束。
等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的CAM,Mt代表仿射变化对应的CAM。
步骤S8-S9,生成伪标签和训练分割网络的具体过程为:
S4.1:使用生成的可靠标签作为生成的类激活映射的监督,训练得到伪标签。
S4.2:可靠区域损失函数定义如下:
其中M是得到的改进的高级特征映射。R是得到的可靠标签。
使用各网络、模块的损失函数作为网络的总损失,训练本申请的弱监督网络结构,生成伪标签;
使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。需要说明的是,Deeplab V1分割网络是一个现有网络,这里本申请不再过多解释说明。
为了更好的解释,各个模块的详细工作过程如下:
将无人机建筑物图像和对应的分类标签输入到分类网络中进行训练,分类网络的主干网络是ResNet38。为了获得初始种子,本申请首先需要得到类激活映射图(CAM)。与目前主流弱监督方法计算CAM的方法不同,本申请提出在计算CAM的网络结构中使用全局最大池化(GMP)代替全局平均池化(GAP)。目前弱监督方法计算CAM的主要方式是根据Zhou提出,该网络框架一个典型的分类网络(如VGG、GoogleNet),与典型的分类网络不同的是在网络最后几层将全连接层改成了池化层进行全局平均池化(GAP)操作。因为现有的弱监督方法普遍应用于多类别的自然场景(如PASCAL VOC)数据集,使用GAP能起到激励网络识别更多的显著区域。而本文主要针对的是建筑物足迹二元分类问题,因此使用全局最大池化(GMP)更符合需求。因为GMP鼓励网络识别最具辨别力的部分,因此在计算CAM时图像区域的低分数(噪声)不会被考虑。
可靠区域标签的获取:
通过分类网络计算得到的CAM图,CAM图是以像素概率表示的,因此可用Pi C表示像素i属于类别c的概率。由于以像素类概率表示的CAM不利于可靠区域的合成,本申请首先将概率转换为每个像素的特定类标签:
设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域(即背景),定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
像素注意力模块:请参考图3,图3是本发明像素注意力模块示意图;所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。具体计算过程如下:
孪生网络结构:注意力模型PAM的等变约束是由一个具有等变正则化损失的孪生网络结构实现的。孪生网络以两个比较“相似”的样本作为输入到网络的两个分支,孪生网络的两个分支通过共享权重的方式,共享“相似”和消除“差异”信息。然后输入映射到新的空间,形成输入在新的空间的表示,通过损失函数比较两个样本在新空间的相似程度。
本申请网络结构的总损失函数:
分类损失函数:图像级分类标签是唯一可以使用的人工标注标签。本申请在网络的末端使用全局最大池化来得到图像分类的预测概率向量。训练分类网络,本申请使用二元交叉熵损失函数:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量。
由于本申请的网络结构使用了孪生网络,因此输出得到两个预测概率向量po,pt。po表示原始图像的预测概率向量,pt表示图像经过仿射变化后输出的预测向量。因此需要计算两个分支的分类损失函数:
等变损失函数:在全监督语义分割的数据增强阶段,像素级标签隐式的与输入图像存在相同的仿射变换。然而,在弱监督语义分割中只考虑了图像级分类标签,缺乏隐式约束。为了保持输出的一致性,需要等变正则化损失函数。
其中F(·)代表仿射变化,Mo代表原始图像的CAM,Mt代表仿射变化对应的CAM。
可靠区域损失函数:
其中M是步骤S3.1得到的改进的类激活映射图。R是步骤2.2得到的可靠标签。考虑孪生网络的二分支结构,可得:
lr1=||Mo-R||2
lr2=||Mt-F(R)||2
网络的总损失函数如下:
利用总损失训练网络计算得到的CAM生成伪像素标签,训练语义分割网络。
为了更好的对本发明所提出的内容进行解释说明,下面提供1个采用本发明的具体实施案例。以下案例所使用的数据集为自制的无人机建筑物数据集。本文提出的网络结构在pytorch网络框架下实现,并在RTX 3090GPU上运行。
本案例所采用的数据集,包含2031张图像作为训练集,704张图像作为测试集。
本申请将从将得到的结果从定性和定量两个角度对本申请的方法和其他方法进行比较,来验证本申请的方法优越性。
请参考图4,图4中各部分表示含义如下:
(a)原图.(b)真实标签.(c)PSA.(d)IRN.(e)SEAM.(f)BES.(g)Ours.其中第一行和第二行是训练集的结果。第三行和第四行是测试集的结果。
图4可以看出不论是在训练集还是测试集,本申请的方法生成的伪标签分割的效果更好,与其他四个对比算法普遍存在背景被误识别成房屋的缺点,从图4(g)可以看出,本申请的方法在分割的结果上显得更精细和准确。另外本申请选取了定量指标交并比IoU(Intersection over Union),像素精度PA(Pixel Accuracy),MPA(平均像素精度),定量实验结果如表所示,表1、表2分别为训练集和测试集的定量结果。
本申请在表1和表2分别给出了基于ResNet主干网络训练集和测试集的结果。可以看出本申请的方法在与其他方法的对比下取得了更好的结果,在测试集的上Iou到达88.8%。本申请方法的提升主要来源于本申请对显著性区域的充分挖掘,避免了噪声的干扰。
表1.不同弱监督方法分割产生的定量指标(训练集)
表2.不同弱监督方法分割产生的定量指标(验证集)
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本发明的有益效果是:
(1)本申请设计了像素注意力模块,挖掘像素之间的相似性,从而可以得到更多的显著性区域。
(2)本申请设计了可靠区域标签合成模块,通过该模块本申请挖掘图像中最具显著性的部分。
(3)设计损失函数将可靠区域标签作为类激活映射的监督,使得能够生成更好的伪标签。
(4)本发明通过分类标签实现了建筑物的像素级分割,极大的降低了像素标注的时间成本和人力成本。

Claims (4)

1.一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于:包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
步骤S2-S3具体如下:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点;表示像素i属于类别c的概率;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系;首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K;利用Q和K进行矩阵运算得到注意力矩阵A;将f输入到新的卷积层中得到V;将V和注意力矩阵进行矩阵相乘得到残差模块;将残差模块加权到原始的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并利用等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
2.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S7中,所述等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的类激活映射CAM,Mt代表仿射变化对应的CAM。
3.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S8中,可靠区域损失函数定义如下:
其中M是步骤S5得到的改进的高级特征映射;R是步骤S3得到的可靠标签;H、W表示输入图像的宽、高。
4.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S9中,损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。
CN202210444884.4A 2022-04-26 2022-04-26 可靠区域作为注意力机制监督的弱监督建筑物分割方法 Active CN114820655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210444884.4A CN114820655B (zh) 2022-04-26 2022-04-26 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210444884.4A CN114820655B (zh) 2022-04-26 2022-04-26 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Publications (2)

Publication Number Publication Date
CN114820655A CN114820655A (zh) 2022-07-29
CN114820655B true CN114820655B (zh) 2024-04-19

Family

ID=82508403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210444884.4A Active CN114820655B (zh) 2022-04-26 2022-04-26 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Country Status (1)

Country Link
CN (1) CN114820655B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116228623B (zh) * 2022-09-08 2024-05-03 上海贝特威自动化科技有限公司 一种基于等变正则化自监督注意力网络的金属表面缺陷检测方法、设备和储存介质
CN115482221A (zh) * 2022-09-22 2022-12-16 深圳先进技术研究院 一种病理图像的端到端弱监督语义分割标注方法
CN115546490A (zh) * 2022-11-23 2022-12-30 南京理工大学 一种基于显著性引导的弱监督语义分割方法
CN116152575B (zh) * 2023-04-18 2023-07-21 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN113159048A (zh) * 2021-04-23 2021-07-23 杭州电子科技大学 一种基于深度学习的弱监督语义分割方法
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
CN114373094A (zh) * 2021-12-08 2022-04-19 南京信息工程大学 一种基于弱监督学习的门控特征注意力等变分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN113159048A (zh) * 2021-04-23 2021-07-23 杭州电子科技大学 一种基于深度学习的弱监督语义分割方法
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
CN114373094A (zh) * 2021-12-08 2022-04-19 南京信息工程大学 一种基于弱监督学习的门控特征注意力等变分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement;Beomyoung Kim;《Computer Vision and Pattern Recognition》;20210920;全文 *
基于显著性背景引导的弱监督语义分割网络;白雪飞;《模式识别与人工智能》;20210915;824-835 *
基于类别概率反向传播机制的弱监督语义分割;李良御;;电气技术;20200415(04);全文 *

Also Published As

Publication number Publication date
CN114820655A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114820655B (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及系统
CN112801270B (zh) 融合深度卷积与注意力机制的u形网络槽自动识别方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN112801182B (zh) 一种基于困难样本感知的rgbt目标跟踪方法
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
Gao et al. Counting dense objects in remote sensing images
Liu et al. Survey of road extraction methods in remote sensing images based on deep learning
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114119621A (zh) 基于深度编解码融合网络的sar遥感图像水域分割方法
CN114529581A (zh) 基于深度学习及多任务联合训练的多目标跟踪方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
Liao et al. Lr-cnn: Local-aware region cnn for vehicle detection in aerial imagery
CN114387454A (zh) 一种基于区域筛选模块和多层次对比的自监督预训练方法
Zhang et al. Small target detection based on squared cross entropy and dense feature pyramid networks
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114550016B (zh) 一种基于上下文信息感知的无人机定位方法及系统
Huang et al. Rotation and scale-invariant object detector for high resolution optical remote sensing images
Huang et al. Deep Learning-Based Semantic Segmentation of Remote Sensing Images: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant