CN114820655B - 可靠区域作为注意力机制监督的弱监督建筑物分割方法 - Google Patents
可靠区域作为注意力机制监督的弱监督建筑物分割方法 Download PDFInfo
- Publication number
- CN114820655B CN114820655B CN202210444884.4A CN202210444884A CN114820655B CN 114820655 B CN114820655 B CN 114820655B CN 202210444884 A CN202210444884 A CN 202210444884A CN 114820655 B CN114820655 B CN 114820655B
- Authority
- CN
- China
- Prior art keywords
- loss function
- network
- reliable
- pixel
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000004913 activation Effects 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000013461 design Methods 0.000 claims abstract description 16
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 10
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010011953 Decreased activity Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,包括以下步骤:构建弱监督语义分割网络,网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;获取建筑物图像和人工标记的分类标签作为训练集,利用训练集对分类网络进行训练,得到初始种子,将初始种子输入可靠区域合成模块中得到可靠标签;用训练集对基于像素注意力模块和孪生网络结构的类激活映射模块进行训练,得到类激活映射;最后用生成的可靠标签作为类激活映射的监督,得到伪标签,使用伪标签训练现有网络得到最终的建筑物分割结果。本发明仅通过分类标签实现了像素级语义分割。
Description
技术领域
本发明属于图像分割领域,尤其涉及一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。
背景技术
随着传感器技术和无人机技术的发展,利用无人机获取建筑物足迹已成为近年来高分辨率图像分割和目标检测的一个重要研究方向。它被广泛应用于数字城市、军事侦察、灾害评估等领域。近年来,随着深度神经网络的发展,语义分割任务取得了很大的进展,但该领域仍面临一个很大的挑战是缺乏大规模的像素级分割标签,目前语义分割任务主要面对较低分辨率的自然场景图像,但在遥感领域的研究还较少,主要原因是在从自然场景任务转换到遥感任务,受真实标签数量少的限制,尤其是缺少像素级分割标签。在较低分辨率的COCO数据集中,COCO数据集的标注人员需要花费4.1秒按类别标记一副图像,花费10.1分钟按像素级分类标注一副图像(像素级标注所需时间是图像级标注的150倍),对于较低分辨率的COCO数据集一副图像都需要耗费如此长的时间,那对于高分辨率的遥感图像则需要耗费更多的时间和人力成本。因此近年来人们致力于使用弱监督语义分割(WSSS)来研究语义分割任务,WSSS使用图像级分类标签、涂鸦和边界框等弱监督方式,试图实现与完全监督同等的分割性能,其中图像级标签是获取方式最容易监督标签也是监督信息最弱的监督标签。
目前,主流的弱监督方法都基于类激活图(CAM),该方法通过图像分类标签训练分类网络使得分类器获得目标对象的定位图。虽然CAM可以识别目标对象最具显著性的区域,但是CAM有三个主要的障碍,使其无法直接作为分割网络训练的伪标签:(1)欠激活:CAM通常只覆盖对象最具显著性的部分而不是对对象的整个区域做出响应。(2)过激活:CAM会引入过度激活等噪音,即存在背景区域错误激活为前景。(3)不一致性:当原始图像经过仿射变换后,对同一副图像生成的CAM图存在不一致性。这些现象的根本原因来自完全监督和弱监督语义分割之间的监督差距。
发明内容
为了解决现有技术存在的问题,本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法来缩小监督上的差距。为解决CAM的欠激活问题,本申请引入了像素注意力模块(PAM)、孪生网络和等变约束使得每个像素能捕获的更多的上下文外观信息。为解决过度激活问题,本申请设计了可靠伪像素标签作为监督。
本发明的技术方案提供一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,方法包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并提供等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
进一步地,步骤S2-S3具体如下:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
进一步地,步骤S7中,所述等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的类激活映射CAM,Mt代表仿射变化对应的CAM。
进一步地,步骤S8中,可靠区域损失函数定义如下:
其中M是步骤S5得到的改进的高级特征映射;R是步骤S3得到的可靠标签;H、W表示输入图像的宽、高。
进一步地,步骤S9中,损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。
本发明的有益效果是:极大的降低了像素标注的时间成本和人力成本。
附图说明
图1是本发明提供的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法的流程示意图;
图2是本发明弱监督建筑物分割网络的结构图;
图3是本发明像素注意力模块示意图;
图4是本发明的定性结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。请参考图1,图1是本发明方法的流程图;方法包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并提供等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
请参考图2,图2是本发明弱监督建筑物分割网络的结构图;
步骤S2-S3中,合成可靠区域标签的具体过程为:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
步骤S4-S6,得到类激活映射的具体过程为:
S3.1:给定第二分类网络,训练第二分类网络(CNN)得到高级特征映射f。f作为像素注意力模块的输入。像素注意力模块挖掘像素之间的相似性从而得到改进的高级特征映射。
请参考图3,图3是本发明像素注意力模块示意图;
所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。
孪生网络结构在网络的训练过程中共享权值,提供等变约束。
等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的CAM,Mt代表仿射变化对应的CAM。
步骤S8-S9,生成伪标签和训练分割网络的具体过程为:
S4.1:使用生成的可靠标签作为生成的类激活映射的监督,训练得到伪标签。
S4.2:可靠区域损失函数定义如下:
其中M是得到的改进的高级特征映射。R是得到的可靠标签。
使用各网络、模块的损失函数作为网络的总损失,训练本申请的弱监督网络结构,生成伪标签;
使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。需要说明的是,Deeplab V1分割网络是一个现有网络,这里本申请不再过多解释说明。
为了更好的解释,各个模块的详细工作过程如下:
将无人机建筑物图像和对应的分类标签输入到分类网络中进行训练,分类网络的主干网络是ResNet38。为了获得初始种子,本申请首先需要得到类激活映射图(CAM)。与目前主流弱监督方法计算CAM的方法不同,本申请提出在计算CAM的网络结构中使用全局最大池化(GMP)代替全局平均池化(GAP)。目前弱监督方法计算CAM的主要方式是根据Zhou提出,该网络框架一个典型的分类网络(如VGG、GoogleNet),与典型的分类网络不同的是在网络最后几层将全连接层改成了池化层进行全局平均池化(GAP)操作。因为现有的弱监督方法普遍应用于多类别的自然场景(如PASCAL VOC)数据集,使用GAP能起到激励网络识别更多的显著区域。而本文主要针对的是建筑物足迹二元分类问题,因此使用全局最大池化(GMP)更符合需求。因为GMP鼓励网络识别最具辨别力的部分,因此在计算CAM时图像区域的低分数(噪声)不会被考虑。
可靠区域标签的获取:
通过分类网络计算得到的CAM图,CAM图是以像素概率表示的,因此可用Pi C表示像素i属于类别c的概率。由于以像素类概率表示的CAM不利于可靠区域的合成,本申请首先将概率转换为每个像素的特定类标签:
设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域(即背景),定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点。
像素注意力模块:请参考图3,图3是本发明像素注意力模块示意图;所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。具体计算过程如下:
孪生网络结构:注意力模型PAM的等变约束是由一个具有等变正则化损失的孪生网络结构实现的。孪生网络以两个比较“相似”的样本作为输入到网络的两个分支,孪生网络的两个分支通过共享权重的方式,共享“相似”和消除“差异”信息。然后输入映射到新的空间,形成输入在新的空间的表示,通过损失函数比较两个样本在新空间的相似程度。
本申请网络结构的总损失函数:
分类损失函数:图像级分类标签是唯一可以使用的人工标注标签。本申请在网络的末端使用全局最大池化来得到图像分类的预测概率向量。训练分类网络,本申请使用二元交叉熵损失函数:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量。
由于本申请的网络结构使用了孪生网络,因此输出得到两个预测概率向量po,pt。po表示原始图像的预测概率向量,pt表示图像经过仿射变化后输出的预测向量。因此需要计算两个分支的分类损失函数:
等变损失函数:在全监督语义分割的数据增强阶段,像素级标签隐式的与输入图像存在相同的仿射变换。然而,在弱监督语义分割中只考虑了图像级分类标签,缺乏隐式约束。为了保持输出的一致性,需要等变正则化损失函数。
其中F(·)代表仿射变化,Mo代表原始图像的CAM,Mt代表仿射变化对应的CAM。
可靠区域损失函数:
其中M是步骤S3.1得到的改进的类激活映射图。R是步骤2.2得到的可靠标签。考虑孪生网络的二分支结构,可得:
lr1=||Mo-R||2
lr2=||Mt-F(R)||2
网络的总损失函数如下:
利用总损失训练网络计算得到的CAM生成伪像素标签,训练语义分割网络。
为了更好的对本发明所提出的内容进行解释说明,下面提供1个采用本发明的具体实施案例。以下案例所使用的数据集为自制的无人机建筑物数据集。本文提出的网络结构在pytorch网络框架下实现,并在RTX 3090GPU上运行。
本案例所采用的数据集,包含2031张图像作为训练集,704张图像作为测试集。
本申请将从将得到的结果从定性和定量两个角度对本申请的方法和其他方法进行比较,来验证本申请的方法优越性。
请参考图4,图4中各部分表示含义如下:
(a)原图.(b)真实标签.(c)PSA.(d)IRN.(e)SEAM.(f)BES.(g)Ours.其中第一行和第二行是训练集的结果。第三行和第四行是测试集的结果。
图4可以看出不论是在训练集还是测试集,本申请的方法生成的伪标签分割的效果更好,与其他四个对比算法普遍存在背景被误识别成房屋的缺点,从图4(g)可以看出,本申请的方法在分割的结果上显得更精细和准确。另外本申请选取了定量指标交并比IoU(Intersection over Union),像素精度PA(Pixel Accuracy),MPA(平均像素精度),定量实验结果如表所示,表1、表2分别为训练集和测试集的定量结果。
本申请在表1和表2分别给出了基于ResNet主干网络训练集和测试集的结果。可以看出本申请的方法在与其他方法的对比下取得了更好的结果,在测试集的上Iou到达88.8%。本申请方法的提升主要来源于本申请对显著性区域的充分挖掘,避免了噪声的干扰。
表1.不同弱监督方法分割产生的定量指标(训练集)
表2.不同弱监督方法分割产生的定量指标(验证集)
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本发明的有益效果是:
(1)本申请设计了像素注意力模块,挖掘像素之间的相似性,从而可以得到更多的显著性区域。
(2)本申请设计了可靠区域标签合成模块,通过该模块本申请挖掘图像中最具显著性的部分。
(3)设计损失函数将可靠区域标签作为类激活映射的监督,使得能够生成更好的伪标签。
(4)本发明通过分类标签实现了建筑物的像素级分割,极大的降低了像素标注的时间成本和人力成本。
Claims (4)
1.一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于:包括以下步骤:
S1、构建弱监督语义分割网络,所述弱监督语义分割网络包括:第一分类网络、可靠区域合成模块,第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块;损失函数设计模块包括第二分类网络的损失函数,等变约束损失函数和可靠区域损失函数;
S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集,利用训练集对第一分类网络进行初步训练,得到初始种子;
S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签;
步骤S2-S3具体如下:
S2.1:所述第一分类网络的损失函数定义如下:
其中yi表示样本i的标签,前景为1,背景为0,N代表训练样本的个数,p代表预测概率向量;
S2.2:给定第一分类网络,输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练,计算得到CAM:
其中wc是类别c的最后分类层的权重,f(x)是GMP之前输入图像x的特征图;
S2.3:设置前景阈值θfg,给定一个滑动窗口W,确定某一像素i,若该像素以及在滑动窗口内的概率值均大于前景的阈值,则选定该像素点为可靠区域,其余均为不可靠区域,即背景,定义如下:
其中DR表示可靠标签,Wi表示像素i滑动窗口内的像素点;表示像素i属于类别c的概率;
S4、用训练集对第二分类网络进行训练,得到高级特征映射,训练的损失函数为第二分类损失函数;
S5、用高级特征映射作为像素注意力模块的输入,得到改进的高级特征映射;
所述像素注意力模块,用于对提取到的高级特征映射f建立全局关系;首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K;利用Q和K进行矩阵运算得到注意力矩阵A;将f输入到新的卷积层中得到V;将V和注意力矩阵进行矩阵相乘得到残差模块;将残差模块加权到原始的高级特征映射;
S6、将改进的高级特征映射作为类激活映射计算模块的输入,得到类激活映射;
S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值,并利用等变约束损失函数提供等变约束;
S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督,得到可靠区域损失函数;
S9、使用损失函数设计模块训练弱监督分割网络得到伪标签;
S10、使用伪标签训练Deeplab V1分割网络,利用Deeplab V1分割网络进行分割,得到最终的建筑物分割结果。
2.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S7中,所述等变约束的损失函数定义如下:
其中F(·)代表仿射变化,Mo代表原始图像的类激活映射CAM,Mt代表仿射变化对应的CAM。
3.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S8中,可靠区域损失函数定义如下:
其中M是步骤S5得到的改进的高级特征映射;R是步骤S3得到的可靠标签;H、W表示输入图像的宽、高。
4.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法,其特征在于,步骤S9中,损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210444884.4A CN114820655B (zh) | 2022-04-26 | 2022-04-26 | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210444884.4A CN114820655B (zh) | 2022-04-26 | 2022-04-26 | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820655A CN114820655A (zh) | 2022-07-29 |
CN114820655B true CN114820655B (zh) | 2024-04-19 |
Family
ID=82508403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210444884.4A Active CN114820655B (zh) | 2022-04-26 | 2022-04-26 | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820655B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228623B (zh) * | 2022-09-08 | 2024-05-03 | 上海贝特威自动化科技有限公司 | 一种基于等变正则化自监督注意力网络的金属表面缺陷检测方法、设备和储存介质 |
CN115482221A (zh) * | 2022-09-22 | 2022-12-16 | 深圳先进技术研究院 | 一种病理图像的端到端弱监督语义分割标注方法 |
CN115546490A (zh) * | 2022-11-23 | 2022-12-30 | 南京理工大学 | 一种基于显著性引导的弱监督语义分割方法 |
CN116152575B (zh) * | 2023-04-18 | 2023-07-21 | 之江实验室 | 基于类激活采样引导的弱监督目标定位方法、装置和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052783A (zh) * | 2020-09-02 | 2020-12-08 | 中南大学 | 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法 |
CN113159048A (zh) * | 2021-04-23 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度学习的弱监督语义分割方法 |
CN113436204A (zh) * | 2021-06-10 | 2021-09-24 | 中国地质大学(武汉) | 一种高分辨率遥感影像弱监督建筑物提取方法 |
CN114373094A (zh) * | 2021-12-08 | 2022-04-19 | 南京信息工程大学 | 一种基于弱监督学习的门控特征注意力等变分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210150281A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
-
2022
- 2022-04-26 CN CN202210444884.4A patent/CN114820655B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052783A (zh) * | 2020-09-02 | 2020-12-08 | 中南大学 | 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法 |
CN113159048A (zh) * | 2021-04-23 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度学习的弱监督语义分割方法 |
CN113436204A (zh) * | 2021-06-10 | 2021-09-24 | 中国地质大学(武汉) | 一种高分辨率遥感影像弱监督建筑物提取方法 |
CN114373094A (zh) * | 2021-12-08 | 2022-04-19 | 南京信息工程大学 | 一种基于弱监督学习的门控特征注意力等变分割方法 |
Non-Patent Citations (3)
Title |
---|
Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement;Beomyoung Kim;《Computer Vision and Pattern Recognition》;20210920;全文 * |
基于显著性背景引导的弱监督语义分割网络;白雪飞;《模式识别与人工智能》;20210915;824-835 * |
基于类别概率反向传播机制的弱监督语义分割;李良御;;电气技术;20200415(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114820655A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN112966684B (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN111612051B (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN113255589B (zh) | 一种基于多卷积融合网络的目标检测方法及系统 | |
CN112801270B (zh) | 融合深度卷积与注意力机制的u形网络槽自动识别方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN113838064B (zh) | 一种基于分支gan使用多时相遥感数据的云去除方法 | |
CN112488229A (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
Gao et al. | Counting dense objects in remote sensing images | |
Liu et al. | Survey of road extraction methods in remote sensing images based on deep learning | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114119621A (zh) | 基于深度编解码融合网络的sar遥感图像水域分割方法 | |
CN114529581A (zh) | 基于深度学习及多任务联合训练的多目标跟踪方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
Liao et al. | Lr-cnn: Local-aware region cnn for vehicle detection in aerial imagery | |
CN114387454A (zh) | 一种基于区域筛选模块和多层次对比的自监督预训练方法 | |
Zhang et al. | Small target detection based on squared cross entropy and dense feature pyramid networks | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114550016B (zh) | 一种基于上下文信息感知的无人机定位方法及系统 | |
Huang et al. | Rotation and scale-invariant object detector for high resolution optical remote sensing images | |
Huang et al. | Deep Learning-Based Semantic Segmentation of Remote Sensing Images: A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |