CN117593648A - 基于弱监督学习的遥感目标建筑物提取方法 - Google Patents
基于弱监督学习的遥感目标建筑物提取方法 Download PDFInfo
- Publication number
- CN117593648A CN117593648A CN202410063976.7A CN202410063976A CN117593648A CN 117593648 A CN117593648 A CN 117593648A CN 202410063976 A CN202410063976 A CN 202410063976A CN 117593648 A CN117593648 A CN 117593648A
- Authority
- CN
- China
- Prior art keywords
- feature map
- mask
- feature
- remote sensing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 101100512352 Enterococcus faecalis (strain TX4000 / JH2-2) mapP gene Proteins 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 101150070547 MAPT gene Proteins 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于弱监督学习的遥感目标建筑物提取方法,属于数据识别领域。本发明构建了基于弱监督学习的提取模型,该提取模型包括教师模型和学生模型,所述教师模型包括第一特征金字塔网络和伪标签生成模块,所述学生模型包括第二特征金字塔网络、多尺度梯度信息融合模块、分类器和掩膜优化修正单元。本发明不仅引入了多尺度梯度信息融合模块,利用目标丰富的多尺度梯度信息表征框内目标的形状,并通过形状先验信息指导分割结果,解决了框内前后景区分困难的问题,同时还增加了掩膜优化修正单元,对分割结果进行优化和修正,解决了预测到的掩膜存在重叠和孔洞的问题。
Description
技术领域
本发明属于数据识别领域,具体涉及一种从遥感图像中提取目标建筑物的方法。
背景技术
传统的建筑物提取主要采用实例分割方法。实例分割方法同时实现了目标检测和语义分割任务,其在定位检测多个目标的同时,对目标实现了像素级的语义分类,可以极大满足目标单体化提取的需求。但普通的实例分割方法依赖于像素级的注释信息,其标注工作耗时耗力,在一定程度上阻碍了实例分割方法在目标单体化提取上的应用。
弱监督的实例分割方法依赖于相对较低级的标签,可以大量减少标注工作量。弱实例分割中的低级注释信息包括点注释,图像级注释和边界框注释三种。点注释是指通过点标注的方式来表征目标的位置,图像级注释是指通过对图像进行类别注释提供监督信息,边界框注释是以目标框的形式对目标进行注释。点注释和图像级由于注释标注信息的极度匮乏,性能较差。而基于边界框注释的实例分割方法在减少标注工作量的同时,可以提供目标的位置和类别信息,有较好的分割效果。
然而,以边界框提供注释信息的弱监督实例分割方法虽然减少了标注工作量,但也由于其注释信息较弱,只提供了目标的边界框注释信息,没有提供围绕目标轮廓的像素级注释信息,因此导致在预测过程中会出现目标框内前后景区分困难的问题。此外,弱监督实例分割方法在预测掩膜的过程中,会在一定程度上依赖像素的聚类等方法,导致最终预测的掩膜会出现重叠和孔洞的现象。
发明内容
本发明提出了一种基于弱监督学习的遥感目标建筑物提取方法,其目的是:1、解决前后景区分困难的问题;2、解决掩膜存在重叠和孔洞的问题。
本发明技术方案如下:
步骤一、构建训练集,所述训练集的每个训练样本中均包含遥感图像X N 以及与该遥感图像X N 对应的真值框注释信息B;
步骤二、构建基于弱监督学习的提取模型;所述提取模型包括教师模型和学生模型;
所述教师模型包括第一特征金字塔网络和伪标签生成模块;所述第一特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 1 ,所述伪标签生成模块用于根据框内特征图t 1 和输入的遥感图像X N 得到输入图像的伪标签x n ;
所述学生模型包括第二特征金字塔网络、多尺度梯度信息融合模块、分类器和掩膜优化修正单元;所述第二特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 2 ,所述多尺度梯度信息融合模块用于基于框内特征图t 2 和输入的遥感图像X N 得到多尺度特征图X F ,所述分类器用于根据多尺度特征图X F 、真值框注释信息B和伪标签x n 得到掩膜分割结果X M ,所述掩膜优化修正单元用于根据掩膜分割结果X M 和真值框注释信息B得到最终的输出掩膜m n ;
步骤三、训练所述提取模型;
步骤四、使用训练好的提取模型提取遥感图像中的目标建筑物。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,所述教师模型的处理过程如下:
步骤T1、针对输入的遥感图像X N ,利用第一特征金字塔网络对遥感图像进行建筑物的特征提取,提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 1 ;
步骤T2、从输入的遥感图像X N 中获取每一个像素的信息,并获取每一个像素与其八邻域内的像素的颜色差异,得到邻域像素颜色差异;同时,获取遥感图像X N 中不同的真值注释框内的像素间的空间对应关系;
步骤T3、将所述邻域像素颜色差异以及空间对应关系作为权重信息,嵌入到教师模型的框内特征图t 1 上,得到伪标签x n 。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,所述学生模型的处理过程如下:
步骤S1、针对输入的遥感图像X N ,利用第二特征金字塔网络对遥感图像进行建筑物的特征提取,提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 2 ;
步骤S2、将遥感图像X N 及输入图像的框内特征图t 2 输入至多尺度梯度信息融合模块中,提取建筑物的形状信息,得到多尺度特征图X F ;
步骤S3、将多尺度特征图X F 、教师模型生成的伪标签x n 以及输入的遥感图像对应的真值框注释信息B输入到分类器中,生成初步的掩膜分割结果X M ;
步骤S4、将初步的掩膜分割结果X M 与真值框注释信息B输入到掩膜优化修正单元中,优化生成最终的输出掩膜。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S2中多尺度梯度信息融合模块的处理过程为:
步骤S2-1、对输入的遥感图像X N 进行预处理,获取到包含初始梯度信息的图像X G ;
步骤S2-2、将输入图像的框内特征图t 2 与包含初始梯度信息的图像X G 输入到多尺度梯度信息融合模块的特征提取部分,进行多尺度的特征学习,得到4组不同尺度的梯度特征图;
步骤S2-3、基于4组不同尺度的梯度特征图通过特征融合得到尺度依次变小的特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 ;
步骤S2-4、基于特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 通过上采样和拼接融合得到多尺度特征图X F 。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S2-1中的预处理包括依次进行的归一化处理,高斯滤波和拉普拉斯变换。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S2-1包括以下具体步骤:
步骤S2-2-1、将输入图像的框内特征图t 2 送入到第一个Stem模块中得到第一图像,将包含梯度信息的图像X G 送入到第二个Stem模块得到第二图像;
步骤S2-2-2、将第一图像和第二图像各自分别输入到两个结构相同的、均由4个依次连接的残差模块构成的残差网络中,得到4组尺度不同的梯度特征图,每一组梯度特征图中均包含一个与第一图像对应的第一梯度特征图和一个与第二图像对应的第二梯度特征图。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S2-3包括以下具体步骤:
步骤S2-3-1、将4组不同尺度的梯度特征图各自分别输入到4个特征融合模块中进行融合,得到4个尺度依次变小的融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 ;
所述特征融合模块的处理方式为:对输入的两个梯度特征图进行拼接操作,再进行3×3卷积操作,完成对应层的特征信息融合,得到输出的融合特征;
步骤S2-3-2、将融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 各自分别通过1×1卷积操作变换为固定通道数的特征,得到尺度依次变小的特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 ;
同时将融合特征P 05 进行最大池化,得到特征图P 6 。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S2-4包括以下具体步骤:
步骤S2-4-1、将特征图P 6 作为特征图P_out 6 ;
步骤S2-4-2、对特征图P 5 、特征图P 4 、特征图P 3 和特征图P 2 依次进行以下操作:设当前处理的是特征图P i ,i=2、3、4、5,则将上一级将要输出的特征图P_out i+1 进行上采样后再与特征图P i 进行拼接融合,得到特征图P i 对应的特征图P_out i ;
步骤S2-4-3、使用特征图P_out 2 、特征图P_out 3 、特征图P_out 4 、特征图P_out 5 和特征图P_out 6 构成所述多尺度特征图X F 。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,步骤S4包括以下具体步骤:
步骤S4-1、获取初步的掩膜分割结果X M 的最小外接矩形框,进行最小外接矩形框与真值框注释信息B的交并比评分计算,得到掩膜分割结果X M 中每个掩膜的最小外接矩形框与真值框注释信息B中对应部分之间的交并比评分;
步骤S4-2、基于交并比评分对初步掩膜分割结果X M 进行掩膜筛选:若掩膜分割结果中的某一掩膜的交并比评分高于预设的阈值,则保留该掩膜,并且认为所保留的掩膜中的所有像素都属于目标区域,否则舍弃该掩膜,不参与后续的掩膜生成过程;
步骤S4-3、对所有保留下来的掩膜分别进行优化与填充,得到输出掩膜m n ;对保留下来的掩膜中的每一个前景像素分别进行如下判断:对前景像素的八个相邻像素根据颜色相似度关系分别判断是否应当同属于该掩膜,若某相邻像素判定为属于、则为该相邻像素分配与前景像素相同的标签、纳入掩膜之中,得到学生模型的输出掩膜m n 。
作为所述基于弱监督学习的遥感目标建筑物提取方法的进一步改进,训练包括以下具体步骤:
将训练集中的各训练样本输入到提取模型中,提取模型针对每个训练样本分别进行如下处理:
步骤A、教师模型根据当前训练样本中的遥感图像X N 和真值框注释信息B得到伪标签x n ;学生模型根据伪标签x n 、真值框注释信息B以及遥感图像X N 得到多尺度特征图X F ,指导进行多示例学习、优化分类器;步骤B、学生模型通过分类器和掩膜优化修正单元得到输出掩膜m n ;
步骤C、基于一致性关系损失更新学生模型的参数:
先计算伪标签x n 和输出掩膜m n 的一致性关系损失,计算方式为:
;
然后,根据当前得到的一致性关系损失对学生模型中的第二特征金字塔网络进行梯度更新;
步骤D、通过指数平均移动方式更新教师模型中的第一特征金字塔网络的参数:
根据预设的更新速率判断本次是否需要更新第一特征金字塔网络的参数:如果需要更新,则将当前第二特征金字塔网络的参数值与教师模型中的第一特征金字塔网络的参数值进行加权平均,将加权平均结果值作为第一特征金字塔网络的新的参数值;如果不需要更新则结束对当前输入的训练样本的处理。
相对于现有技术,本发明具有以下有益效果:本发明提出了一种基于弱监督学习的遥感目标建筑物提取方法,有效地提高遥感目标建筑物提取的效果和效率:一方面,引入了多尺度梯度信息融合模块,利用目标丰富的多尺度梯度信息表征框内目标的形状,并通过形状先验信息指导分割结果,解决了框内前后景区分困难的问题;另一方面,增加了掩膜优化修正单元,对分割结果进行优化和修正,解决了预测到的掩膜存在重叠和孔洞的问题。
附图说明
图1为本方法提取模型的原理图;
图2为多尺度梯度信息融合模块的原理图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
步骤一、在原遥感大图上进行标注得到语义图,再对该语义图进行裁剪处理,得到2304张640×640像素的遥感图像,然后在裁剪后的遥感图像中获取建筑物的最小外接矩形作为真值注释框,得到真值框注释信息。将得到的多组遥感图像及其对应的真值框注释信息分为训练集和测试集。
步骤二、构建基于弱监督学习的提取模型。
所述提取模型包括教师模型和学生模型。
(一)教师模型
教师模型的输入为遥感图像X N 及其对应的真值框注释信息B,输出为遥感图像对应的伪标签x n 。
所述教师模型包括第一特征金字塔网络和伪标签生成模块。所述第一特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 1 ,所述伪标签生成模块用于根据框内特征图t 1 和输入的遥感图像X N 得到输入图像的伪标签x n 。
教师模型的处理过程如下:
步骤T1、针对输入的遥感图像X N ,利用第一特征金字塔网络(图1中教师模型中的FPN)对遥感图像进行建筑物的特征提取。提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 1 。
步骤T2、从输入的遥感图像X N 中获取每一个像素的信息,并获取每一个像素与其八邻域内的像素的颜色差异,将像素i和j之间的颜色差异表示为C (i,j) ,得到邻域像素颜色差异。
同时,获取遥感图像X N 中不同的真值注释框内的像素间的空间对应关系,将某一真值注释框中的像素i和另一真值注释框中的像素k之间的空间对应关系表示为S (i,k) ,依据空间对应关系得到不同真值注释框内像素间的密集对应关系。所述密集对应关系包括但不限于像素间的几何偏移量。
步骤T3、将所述邻域像素颜色差异以及空间对应关系作为权重信息,嵌入到教师模型的框内特征图t 1 上,得到伪标签x n 。
在本发明中,教师模型生成的伪标签会对学生模型中的多示例学习进行指导,实现对学生模型的参数更新,并参与一致性关系的计算,使得学生模型的输出掩膜与教师模型生成的伪标签保持一致。
(二)学生模型
学生模型的输入为教师模型生成的伪标签x n 、遥感图像X N 以及其对应的真值框注释信息B,输出为输入的遥感图像所对应的输出掩膜m n 。
所述学生模型包括第二特征金字塔网络、多尺度梯度信息融合模块、分类器和掩膜优化修正单元。所述第二特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 2 ,所述多尺度梯度信息融合模块用于基于框内特征图t 2 和输入的遥感图像X N 得到多尺度特征图X F ,所述分类器用于根据多尺度特征图X F 、真值框注释信息B和伪标签x n 得到掩膜分割结果X M ,所述掩膜优化修正单元用于根据掩膜分割结果X M 和真值框注释信息B得到最终的输出掩膜m n 。
学生模型的处理过程如下:
步骤S1、针对输入的遥感图像X N ,利用第二特征金字塔网络(图1中学生模型中的FPN)对遥感图像进行建筑物的特征提取。提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 2 。
步骤S2、将遥感图像X N 及输入图像的框内特征图t 2 输入至多尺度梯度信息融合模块中,提取建筑物的形状信息,得到多尺度特征图X F ,便于学生模型区分真值注释框内的建筑物以及背景信息。
多尺度梯度信息融合模块的处理过程为:
步骤S2-1、对输入的遥感图像X N 进行预处理,获取到包含初始梯度信息的图像X G 。
预处理包括依次进行的归一化处理,高斯滤波和拉普拉斯变换。
步骤S2-1-1、对输入的遥感图像X N 进行归一化处理,以此稳定数据分布,归一化后的图像为X 1 。
步骤S2-1-2、此时仍然存在背景噪声的干扰,因此采用高斯滤波器作为卷积核,对归一化之后的图像X 1 进行滤波。本实施例中,卷积核参数设定为下式:
。
此时图像中的噪声信息可以被有效去除,将完成去噪的图像表示为X 2 。
步骤S2-1-3、继续使用拉普拉斯算子进行梯度提取:使用拉普拉斯算子作为卷积核对图像X 2 进行卷积操作,得到各像素点和其邻域内其他像素点之间的差异程度。本实施例中,卷积核参数设定为下式:
。
将经过梯度提取后的图像表示为X G ,X G 中包含所述初始梯度信息。则步骤S2-1的预处理过程可以表示为下式:
。
其中,是卷积操作;/>是转换操作,将算子的维度大小转换为和图像一致;/>表示堆叠操作。
步骤S2-2、将输入图像的框内特征图t 2 与包含初始梯度信息的图像X G 输入到特征提取部分,进行多尺度的特征学习,得到4组不同尺度的梯度特征图。
步骤S2-2-1、将输入图像的框内特征图t 2 送入到第一个Stem模块中得到第一图像,将包含梯度信息的图像X G 送入到第二个Stem模块得到第二图像。
所述Stem模块用于进行通道变换,它利用一个7×7的卷积核,对图像进行步长为2、填充为3的卷积变换,将输入的3通道图像变换为64通道图像,并将输出的尺寸降为原来的1/2。
步骤S2-2-2、将第一图像和第二图像各自分别输入到两个结构相同的、均由4个依次连接的残差模块构成的残差网络中,得到4组尺度不同的梯度特征图,每一组梯度特征图中均包含一个与第一图像对应的第一梯度特征图和一个与第二图像对应的第二梯度特征图。
所述残差网络所包含的4个残差模块分别表示为Res2、Res3、Res4、Res5,它们分别包括3个、4个、6个和3个残差块,共16个残差块。
步骤S2-3、基于4组不同尺度的梯度特征图通过特征融合得到尺度依次变小的特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 。
步骤S2-3-1、将4组不同尺度的梯度特征图各自分别输入到4个特征融合模块中进行融合,得到4个尺度依次变小的融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 。
所述特征融合模块的处理方式为:对输入的两个梯度特征图进行拼接操作,再进行3×3卷积操作,完成对应层的特征信息融合,得到输出的融合特征。
步骤S2-3-2、将融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 各自分别通过1×1卷积操作变换为固定通道数的特征,得到尺度依次变小的特征图P 2 、特征图P 3 、特征图P 4 和特征图P 5 。
同时将融合特征P 05 进行最大池化,得到特征图P 6 。
步骤S2-4、基于特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 通过上采样和拼接融合得到包含丰富边界信息的多尺度特征图X F。
具体过程为:
步骤S2-4-1、将特征图P 6 作为特征图P_out 6 。
步骤S2-4-2、对特征图P 5 、特征图P 4 、特征图P 3 和特征图P 2 依次进行以下操作:设当前处理的是特征图P i ,i=2、3、4、5,则将上一级将要输出的特征图P_out i+1 进行上采样后再与特征图P i 进行拼接融合,得到特征图Pi对应的特征图P_out i 。
通过上采样,可以将高级特征图的分辨率逐渐恢复到与低级特征图相同的分辨率,完成特征融合和多尺度梯度的特征提取,依此获取更大的感受野和低分辨率的多尺度特征。
步骤S2-4-3、使用特征图P_out 2 、特征图P_out 3 、特征图P_out 4 、特征图P_out 5 和特征图P_out 6 构成所述多尺度特征图X F ,用于代替边界框注释中缺失的像素级注释信息。
步骤S3、将多尺度特征图X F 、教师模型生成的伪标签x n 以及输入的遥感图像对应的真值框注释信息B输入到分类器中,生成初步的掩膜分割结果X M 。
步骤S4、将初步的掩膜分割结果X M 与真值框注释信息B输入到掩膜优化修正单元中,优化生成最终的输出掩膜。
掩膜优化修正单元能够很好地解决掩膜中存在孔洞、掩膜重叠的问题,从而得到高质量的掩膜(目标区域)。
所述掩膜优化修正单元的处理方式为:
步骤S4-1、获取初步的掩膜分割结果X M 的最小外接矩形框,进行最小外接矩形框与真值框注释信息B的交并比评分计算,得到掩膜分割结果X M 中每个掩膜的最小外接矩形框与真值框注释信息B中对应部分之间的交并比评分。交并比越高,则表示该掩膜分割的结果与真值框注释重叠面积越高,越接近建筑物真实的掩膜。
步骤S4-2、基于交并比评分对初步掩膜分割结果X M 进行掩膜筛选。
本实施例中,设定阈值为0.5,若掩膜分割结果X M 中的某一掩膜的交并比评分高于该阈值,则保留该掩膜,并且认为所保留的掩膜中的所有像素都属于目标区域,否则舍弃该掩膜,不参与后续的掩膜生成过程。
步骤S4-3、对所有保留下来的掩膜分别进行优化与填充,得到输出掩膜m n 。
每个掩膜由多个前景像素组成。本步骤中,对保留下来的掩膜中的每一个前景像素分别进行如下判断:对前景像素的八个相邻像素根据颜色相似度关系分别判断是否应当同属于该掩膜,若某相邻像素判定为属于、则为该相邻像素分配与前景像素相同的标签、纳入掩膜之中,否则不更新标签。依此对掩膜中存在孔洞的位置进行填充与优化,得到更完整的学生模型的输出掩膜m n 。
步骤三、训练步骤二中构建的基于弱监督学习的提取模型。训练过程如下:
将训练集中的各训练样本输入到提取模型中,提取模型针对每个训练样本分别进行如下处理:
步骤A、教师模型根据当前训练样本中的遥感图像X N 和真值框注释信息B得到伪标签x n 。学生模型根据伪标签x n 、真值框注释信息B以及遥感图像X N 得到多尺度特征图X F ,指导进行多示例学习、优化分类器。
步骤B、学生模型通过分类器和掩膜优化修正单元得到输出掩膜m n 。
步骤C、基于一致性关系损失更新学生模型的参数。
伪标签m n 中保留了同一真值框注释内像素的颜色差异、不同注释框内的空间对应关系;输出掩膜m n 中,融合了目标的多尺度梯度先验信息,能够更好地描述目标的形状,解决框内前后景区分困难的问题,并且排除了掩膜中的孔洞以及重复的掩膜影响。
因此,先计算伪标签x n 和输出掩膜m n 的一致性关系损失,计算方式为:
。
所述一致性关系损失是用于评估学生模型生成结果与教师模型预测之间的相似性或一致性的损失函数。
然后,根据当前得到的一致性关系损失对学生模型中的第二特征金字塔网络进行梯度更新,依此为主干网络注入丰富的目标形状信息,有助于分割过程中对框内目标和背景的区分,进而指导掩膜分割任务上对掩膜的处理。
步骤D、通过指数平均移动方式更新教师模型中的第一特征金字塔网络的参数。
根据预设的更新速率判断本次是否需要更新第一特征金字塔网络的参数:如果需要更新,则将当前第二特征金字塔网络的参数值与教师模型中的第一特征金字塔网络的参数值进行加权平均,将加权平均结果值作为第一特征金字塔网络的新的参数值;如果不需要更新则结束对当前输入的训练样本的处理。该方法有助于提高学生模型的性能,使其获得更多的信息,提升泛化能力。
进一步的,训练完成后,将测试集中的测试样本输入到训练好的提取模型中,并计算一致性关系损失,对提取模型进行测试评估。
步骤四、使用训练好的提取模型提取遥感图像中的目标建筑物,过程如下:
将遥感图像和遥感图像对应的真值框注释信息输入到提取模型的教师模型中,得到伪标签;然后将将遥感图像、遥感图像对应的真值框注释信息以及伪标签输入到学生模型中,得到输出掩膜;最后利用输出掩膜从遥感图像中提取出目标建筑物。
Claims (10)
1.一种基于弱监督学习的遥感目标建筑物提取方法,其特征在于包括以下步骤:
步骤一、构建训练集,所述训练集的每个训练样本中均包含遥感图像X N 以及与该遥感图像X N 对应的真值框注释信息B;
步骤二、构建基于弱监督学习的提取模型;所述提取模型包括教师模型和学生模型;
所述教师模型包括第一特征金字塔网络和伪标签生成模块;所述第一特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 1 ,所述伪标签生成模块用于根据框内特征图t 1 和输入的遥感图像X N 得到输入图像的伪标签x n ;
所述学生模型包括第二特征金字塔网络、多尺度梯度信息融合模块、分类器和掩膜优化修正单元;所述第二特征金字塔网络用于基于输入的遥感图像X N 和真值框注释信息B得到输入图像的框内特征图t 2 ,所述多尺度梯度信息融合模块用于基于框内特征图t 2 和输入的遥感图像X N 得到多尺度特征图X F ,所述分类器用于根据多尺度特征图X F 、真值框注释信息B和伪标签x n 得到掩膜分割结果X M ,所述掩膜优化修正单元用于根据掩膜分割结果X M 和真值框注释信息B得到最终的输出掩膜m n ;
步骤三、训练所述提取模型;
步骤四、使用训练好的提取模型提取遥感图像中的目标建筑物。
2.如权利要求1所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,所述教师模型的处理过程如下:
步骤T1、针对输入的遥感图像X N ,利用第一特征金字塔网络对遥感图像进行建筑物的特征提取,提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 1 ;
步骤T2、从输入的遥感图像X N 中获取每一个像素的信息,并获取每一个像素与其八邻域内的像素的颜色差异,得到邻域像素颜色差异;同时,获取遥感图像X N 中不同的真值注释框内的像素间的空间对应关系;
步骤T3、将所述邻域像素颜色差异以及空间对应关系作为权重信息,嵌入到教师模型的框内特征图t 1 上,得到伪标签x n 。
3.如权利要求1所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,所述学生模型的处理过程如下:
步骤S1、针对输入的遥感图像X N ,利用第二特征金字塔网络对遥感图像进行建筑物的特征提取,提取时,引入真值框注释信息B的约束,除去在真值框外的特征信息,得到输入图像的框内特征图t 2 ;
步骤S2、将遥感图像X N 及输入图像的框内特征图t 2 输入至多尺度梯度信息融合模块中,提取建筑物的形状信息,得到多尺度特征图X F ;
步骤S3、将多尺度特征图X F 、教师模型生成的伪标签x n 以及输入的遥感图像对应的真值框注释信息B输入到分类器中,生成初步的掩膜分割结果X M ;
步骤S4、将初步的掩膜分割结果X M 与真值框注释信息B输入到掩膜优化修正单元中,优化生成最终的输出掩膜。
4.如权利要求3所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S2中多尺度梯度信息融合模块的处理过程为:
步骤S2-1、对输入的遥感图像X N 进行预处理,获取到包含初始梯度信息的图像X G ;
步骤S2-2、将输入图像的框内特征图t 2 与包含初始梯度信息的图像X G 输入到多尺度梯度信息融合模块的特征提取部分,进行多尺度的特征学习,得到4组不同尺度的梯度特征图;
步骤S2-3、基于4组不同尺度的梯度特征图通过特征融合得到尺度依次变小的特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 ;
步骤S2-4、基于特征图P 2 、特征图P 3 、特征图P 4 、特征图P 5 和特征图P 6 通过上采样和拼接融合得到多尺度特征图X F 。
5.如权利要求4所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S2-1中的预处理包括依次进行的归一化处理,高斯滤波和拉普拉斯变换。
6.如权利要求4所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S2-1包括以下具体步骤:
步骤S2-2-1、将输入图像的框内特征图t 2 送入到第一个Stem模块中得到第一图像,将包含梯度信息的图像X G 送入到第二个Stem模块得到第二图像;
步骤S2-2-2、将第一图像和第二图像各自分别输入到两个结构相同的、均由4个依次连接的残差模块构成的残差网络中,得到4组尺度不同的梯度特征图,每一组梯度特征图中均包含一个与第一图像对应的第一梯度特征图和一个与第二图像对应的第二梯度特征图。
7.如权利要求6所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S2-3包括以下具体步骤:
步骤S2-3-1、将4组不同尺度的梯度特征图各自分别输入到4个特征融合模块中进行融合,得到4个尺度依次变小的融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 ;
所述特征融合模块的处理方式为:对输入的两个梯度特征图进行拼接操作,再进行3×3卷积操作,完成对应层的特征信息融合,得到输出的融合特征;
步骤S2-3-2、将融合特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 各自分别通过1×1卷积操作变换为固定通道数的特征,得到尺度依次变小的特征P 02 、融合特征P 03 、融合特征P 04 和融合特征P 05 ;
同时将融合特征P 05 进行最大池化,得到特征图P 6 。
8.如权利要求7所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S2-4包括以下具体步骤:
步骤S2-4-1、将特征图P 6 作为特征图P_out 6 ;
步骤S2-4-2、对特征图P 5 、特征图P 4 、特征图P 3 和特征图P 2 依次进行以下操作:设当前处理的是特征图P i ,i=2、3、4、5,则将上一级将要输出的特征图P_out i+1 进行上采样后再与特征图P i 进行拼接融合,得到特征图P i 对应的特征图P_out i ;
步骤S2-4-3、使用特征图P_out 2 、特征图P_out 3 、特征图P_out 4 、特征图P_out 5 和特征图P_out 6 构成所述多尺度特征图X F 。
9.如权利要求7所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤S4包括以下具体步骤:
步骤S4-1、获取初步的掩膜分割结果X M 的最小外接矩形框,进行最小外接矩形框与真值框注释信息B的交并比评分计算,得到掩膜分割结果X M 中每个掩膜的最小外接矩形框与真值框注释信息B中对应部分之间的交并比评分;
步骤S4-2、基于交并比评分对初步掩膜分割结果X M 进行掩膜筛选:若掩膜分割结果中的某一掩膜的交并比评分高于预设的阈值,则保留该掩膜,并且认为所保留的掩膜中的所有像素都属于目标区域,否则舍弃该掩膜,不参与后续的掩膜生成过程;
步骤S4-3、对所有保留下来的掩膜分别进行优化与填充,得到输出掩膜m n ;对保留下来的掩膜中的每一个前景像素分别进行如下判断:对前景像素的八个相邻像素根据颜色相似度关系分别判断是否应当同属于该掩膜,若某相邻像素判定为属于、则为该相邻像素分配与前景像素相同的标签、纳入掩膜之中,得到学生模型的输出掩膜m n 。
10.如权利要求1所述的基于弱监督学习的遥感目标建筑物提取方法,其特征在于,步骤三中,训练包括以下具体步骤:
将训练集中的各训练样本输入到提取模型中,提取模型针对每个训练样本分别进行如下处理:
步骤A、教师模型根据当前训练样本中的遥感图像X N 和真值框注释信息B得到伪标签x n ;学生模型根据伪标签x n 、真值框注释信息B以及遥感图像X N 得到多尺度特征图X F ,指导进行多示例学习、优化分类器;步骤B、学生模型通过分类器和掩膜优化修正单元得到输出掩膜m n ;
步骤C、基于一致性关系损失更新学生模型的参数:
先计算伪标签x n 和输出掩膜m n 的一致性关系损失,计算方式为:
;
然后,根据当前得到的一致性关系损失对学生模型中的第二特征金字塔网络进行梯度更新;
步骤D、通过指数平均移动方式更新教师模型中的第一特征金字塔网络的参数:
根据预设的更新速率判断本次是否需要更新第一特征金字塔网络的参数:如果需要更新,则将当前第二特征金字塔网络的参数值与教师模型中的第一特征金字塔网络的参数值进行加权平均,将加权平均结果值作为第一特征金字塔网络的新的参数值;如果不需要更新则结束对当前输入的训练样本的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063976.7A CN117593648B (zh) | 2024-01-17 | 2024-01-17 | 基于弱监督学习的遥感目标建筑物提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063976.7A CN117593648B (zh) | 2024-01-17 | 2024-01-17 | 基于弱监督学习的遥感目标建筑物提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593648A true CN117593648A (zh) | 2024-02-23 |
CN117593648B CN117593648B (zh) | 2024-04-05 |
Family
ID=89920431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410063976.7A Active CN117593648B (zh) | 2024-01-17 | 2024-01-17 | 基于弱监督学习的遥感目标建筑物提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593648B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
US20220207718A1 (en) * | 2020-12-27 | 2022-06-30 | Ping An Technology (Shenzhen) Co., Ltd. | Knowledge distillation with adaptive asymmetric label sharpening for semi-supervised fracture detection in chest x-rays |
CN114943689A (zh) * | 2022-04-27 | 2022-08-26 | 河钢数字技术股份有限公司 | 基于半监督学习的钢铁冷轧退火炉元器件检测方法 |
CN115830322A (zh) * | 2022-12-01 | 2023-03-21 | 电子科技大学长三角研究院(湖州) | 一种基于弱监督网络的建筑物语义分割标签扩充方法 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
-
2024
- 2024-01-17 CN CN202410063976.7A patent/CN117593648B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022041307A1 (zh) * | 2020-08-31 | 2022-03-03 | 温州医科大学 | 一种构建半监督图像分割框架的方法及系统 |
US20220207718A1 (en) * | 2020-12-27 | 2022-06-30 | Ping An Technology (Shenzhen) Co., Ltd. | Knowledge distillation with adaptive asymmetric label sharpening for semi-supervised fracture detection in chest x-rays |
CN114943689A (zh) * | 2022-04-27 | 2022-08-26 | 河钢数字技术股份有限公司 | 基于半监督学习的钢铁冷轧退火炉元器件检测方法 |
CN115830322A (zh) * | 2022-12-01 | 2023-03-21 | 电子科技大学长三角研究院(湖州) | 一种基于弱监督网络的建筑物语义分割标签扩充方法 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
Non-Patent Citations (2)
Title |
---|
CHEN, H等: "Structure-Aware Weakly Supervised Network for Building Extraction From Remote Sensing Images", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, 31 December 2022 (2022-12-31) * |
冯展祥;朱荣;王玉娟;赖剑煌;: "非可控环境行人再识别综述", 中山大学学报(自然科学版), no. 03, 15 May 2020 (2020-05-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117593648B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830171B (zh) | 一种基于深度学习的智能物流仓库引导线视觉检测方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN112241762B (zh) | 一种用于病虫害图像分类的细粒度识别方法 | |
CN108460764A (zh) | 基于自动上下文和数据增强的超声图像智能分割方法 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN110838105A (zh) | 一种业务流程模型图像识别与再构方法 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN111462140B (zh) | 一种基于区块拼接的实时图像实例分割方法 | |
CN112613428B (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
CN110458132A (zh) | 一种基于端到端的不定长文本识别方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN111461121A (zh) | 一种基于yolov3网络的电表示数识别方法 | |
CN113420827A (zh) | 语义分割网络训练和图像语义分割方法、装置及设备 | |
CN115937626A (zh) | 基于实例分割的半虚拟数据集自动生成方法 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN115880529A (zh) | 基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统 | |
CN113657414B (zh) | 一种物体识别方法 | |
CN114494773A (zh) | 一种基于深度学习的零件分拣识别系统和方法 | |
CN113077438B (zh) | 针对多细胞核彩色图像的细胞核区域提取方法及成像方法 | |
CN117576038A (zh) | 基于YOLOv8网络的织物瑕疵检测方法及系统 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN117593648B (zh) | 基于弱监督学习的遥感目标建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |