CN112308860B - 基于自监督学习的对地观测图像语义分割方法 - Google Patents

基于自监督学习的对地观测图像语义分割方法 Download PDF

Info

Publication number
CN112308860B
CN112308860B CN202011177523.5A CN202011177523A CN112308860B CN 112308860 B CN112308860 B CN 112308860B CN 202011177523 A CN202011177523 A CN 202011177523A CN 112308860 B CN112308860 B CN 112308860B
Authority
CN
China
Prior art keywords
image
pixel
value
network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011177523.5A
Other languages
English (en)
Other versions
CN112308860A (zh
Inventor
冉令燕
冀程
李政
张艳宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011177523.5A priority Critical patent/CN112308860B/zh
Publication of CN112308860A publication Critical patent/CN112308860A/zh
Application granted granted Critical
Publication of CN112308860B publication Critical patent/CN112308860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码图像修复网络进行预训练,并引入显著性检测和注意力机制,以提高网络的区域特征提取能力;随后,将预训练的网络经过微调用于语义分割任务,实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题,具有更高的语义分割精度。

Description

基于自监督学习的对地观测图像语义分割方法
技术领域
本发明属计算机视觉、语义分割技术领域,具体涉及一种基于自监督学习的对地观测图像语义分割方法。
背景技术
语义分割是计算机视觉领域中一个重要而富有挑战性的任务,它的目标是把图像以像素级分割成不同语义类别的区域块,并给出每个像素的类别标签。对地观测图像是由成像卫星、无人机等捕获的高空图像,近年来对对地观测图像进行语义分割任务得到学者的普遍关注,并在作物产量预测、路网提取、场景解析和植被覆盖等许多应用中有着重要的应用前景。目前,对地观测图像的语义分割存在以下问题:(1)类间实例的相似性和类内物体的差异性问题,并且背景较为复杂难以区分;(2)图片的多样性强、标注难度大,需要领域专家进行标注,难以获得大规模的像素级别标注的数据集。
随着深度学习的发展,语义分割架构通常使用编码器和解码器,主要采用的是卷积神经网络结构,其在图像特征提取方面的优异表现得益于大量带标签的训练数据。然而,手工标注的难度大且时间代价高昂,这一问题在要求像素级别标签的语义分割方面尤为突出。因此,仅使用少量的带有像素级别标签的数据进行训练,或者采用相对容易的标注方式如图片分类标签进行标注的弱监督学习方法受到越来越多的关注。近年来,许多研究者致力于采用自监督学习技术进行模型的预训练,利用辅助任务从无标签数据中自行学习,无需任何标注数据。文献“Pathak D,Krahenbuhl P,Donahue J,et al.Context Encoders:Feature Learning by Inpainting[C]//2016IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2016.”提出了基于上下文像素预测的无监督视觉特征学习算法,主要思路是结合编解码网络结构和对抗生成网络实现语义图像的修复,其上下文编码器使用卷积神经网络的结构,可以有效地对周围环境信息进行特征提取从而实现图像修复的任务。文献“Hung W C,Tsai Y H,Liou Y T,et al.Adversarial Learning forSemi-Supervised Semantic Segmentation[J].2018.”采用对抗训练的方式,利用未标记图像来增强语义分割模型,提高了半监督学习语义分割的精度。文献“Singh S,Batra A,Pang G,et al.Self-Supervised Feature Learning for Semantic Segmentation ofOverhead Imagery[C]//BMVC,2018.2018.”将语义图像修复任务作为辅助任务进行自监督学习,通过利用无标签的数据对上下文编码器进行训练,随后将与训练好的网络应用于其他视觉任务中,但是由于采用对抗训练收敛性差,分割效果不够理想。
发明内容
为了克服现有技术的不足,本发明提供一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码网络进行预训练,并引入显著性检测和注意力机制,以提高网络的区域特征提取能力;随后,将预训练的网络经过微调用于语义分割任务,实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题,具有更高的语义分割精度。
一种基于自监督学习的对地观测图像语义分割方法,其特征在于步骤如下:
步骤1:将待处理对地观测图像数据集按照8:2的比例划分为训练集和测试集两部分,其中,训练集中10%的图像带标签、其余图像不带标签,并对每幅图像进行数据增广操作;
步骤2:分别将训练集和测试集中的每一幅图像按以下过程进行处理:
步骤a:对图像进行显著性检测,具体处理过程如下:
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差;Dc(rk,rl)表示区域rk和区域rl之间的颜色距离函数值;
然后,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],ω(rl)表示区域rl包含的像素数量;
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像;
步骤b:对显著性检测结果进行二值化处理,得到与原图像对应的掩膜,具体处理过程为:以显著性检测结果图像的平均灰度值作为阈值,将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0,将显著性检测结果图像中像素灰度值小于阈值的像素值置为1,并统计值置为0的像素个数占图像像素总数的比例α,如果α<0.25,则随机将显著性检测结果图像20%的像素块中的像素值置为0,如果α>0.5,则随机将显著性检测结果图像20%的像素块中的像素值置为1,此时得到的图像即为与原图像对应的掩膜;所述的像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块;
步骤c:利用掩膜对原图像进行覆盖处理,得到损坏图像,具体为:按照下式计算得到损坏图像:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,⊙表示像素点积计算;
步骤3:将步骤2处理后的训练集和测试集中的图像输入到编解码图像修复网络中进行训练,设定网络的损失函数为引入注意力机制的MSE均方误差损失,并训练400epoch,得到训练好的模型;所述的编解码图像修复网络以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸;
然后,去掉训练好的编解码图像修复网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型;
步骤4:以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到步骤3得到的语义分割网络模型中训练200epoch,再将测试集中的图像输入到训练后的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,得到与原图像尺寸相同的分割结果图像。
进一步,步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下:
Linpainting=wresLres+wconLcon (4)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,本发明中wres=0.95,wcon为上下文损失加权系数,本发明中wcon=0.05;
重建损失Lres和上下文损失Lcon的计算公式分别为:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,/>表示输入损坏图像/>后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的任一类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (7)
其中,β表示权值系数,本发明中β=0.01,Mc表示类激活图,其每个像素值按照下式计算得到:
其中,(i,j)表示像素坐标,i,j=1,2,…,n,Mc(i,j)表示位置(i,j)处的像素类激活值,k表示网络模型中最后一层卷积层中的节点序号,取值范围为1,2,…,K,K为模型中最后一层卷积层包含的节点总数,fk(i,j)表示位置(i,j)处的第k个节点的激活值,是节点k对图像中类别c的权重,本发明中取值为全局平均池化层在节点k的梯度。
进一步,步骤3所述的训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;然后,将处理后的测试集中的所有图像输入到初步训练后的网络,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练,重复前述过程,直至完成设定的训练epoch数,得到训练好的网络;其中,最小损失函数值Lmin初始时设置为105
进一步,步骤4所述的平均交并比mIoU按照下式计算得到:
其中,n表示数据集中图像的标签类别数,c为类别序号,IoUc表示类别c的交并比,按照下式计算得到:
其中,TPc表示标签为类别c且被预测为类别c的像素数目,FPc表示标签不是类别c但被预测为类别c的像素数目,FNc表示标签为类别c但被预测为其他类别的像素数目。
本发明的有益效果是:(1)由于采用自监督学习技术在仅有少量标签的数据集上实现了对地观测图像的语义分割任务,能够利用语义图像修复作为辅助任务对编解码网络进行预训练,充分使用无标签的对地观测图像,提高编解码网络在待分割数据集上的特征提取能力,从而提高语义分割的精度;(2)由于采用显著性检测生成有语义意义的掩膜,在自监督阶段增加修复任务的难度,使得编解码网络能够更好地学习修复较为困难的复杂区域特征;(3)由于引入注意力机制的MSE均方误差损失函数,对分类有帮助的区别性图像区域能够得到更高的损失,可以更有针对性地提高部分类别的特征提取能力。
附图说明
图1是本发明的基于自监督学习的对地观测图像语义分割方法流程图;
图2是本发明的基于自监督学习的对地观测图像语义分割方法示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于自监督学习的对地观测图像语义分割方法,其具体实现过程如下:
1、数据集预处理
将待处理对地观测图像数据集(如ISPRS Potsdam数据集)按照8:2的比例划分为训练集和测试集两部分,其中,训练集中只有少量,即10%的图像带标签,其余图像不带标签。对数据集中图像进行了切割之后,再进行翻转变换、随机旋转变换、上下左右平移变换、随机裁切、大小缩放变换等增广操作。整个训练集是图像修复模型的输入以训练模型参数,带标签数据为语义分割任务的输入,测试集分别用于编解码网络特征提取性能和最终语义分割精度的测试评价。
2、对数据进行显著性检测并生成掩膜
对训练集和测试集中的每一幅图像计算空间加权的区域对比度,得到与输入图像相同尺寸的显著性检测图像。
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差。
然后,在全局范围内进行加权计算区域对比度,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],其数值越大权值影响越小。ω(rl)表示区域rl包含的像素数量。Dc(rk,rl)为利用公式(11)计算的区域rk和区域rl之间的颜色距离函数值。
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像。
计算显著性图像的均值将其设定为阈值,若像素的灰度值大于阈值则设置为0,小于则设置为1,同时计算当前擦除比例(0像素的占比)α,由于的图片中显著性区域在图片中的占比差异较大,若α<0.25,则随机擦除部分区域,即将显著性检测结果图像20%的像素块中的像素值置为0,若α>0.5,则随机删减部分显著性检测区域,即将显著性检测结果图像20%的像素块中的像素值置为1,得到最终掩膜。其中,像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块。
3、生成语义图像修复任务的输入数据
将步骤2得到的掩膜覆盖在对应图像上,其中对于每幅图像的掩膜M,掩膜值为0的像素从图像中擦除,为1的像素保持不变,即按照下式计算得到覆盖掩膜之后的损坏图像:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,⊙表示像素点积计算。
4、设计引入注意力机制的损失函数
按照下式计算得到类别c的类激活图Mc
其中,(i,j)表示像素坐标,i,j=1,2,…,n,Mc(i,j)表示位置(i,j)处的像素类激活值,k表示网络模型中最后一层卷积层中的节点序号,取值范围为1,2,…,K,K为模型中最后一层卷积层包含的节点总数,fk(i,j)表示位置(i,j)处的第k个节点的激活值,是节点k对图像中类别c的权重,本发明中取值为全局平均池化层在节点k的梯度。
类激活图Mc用来表示激活空间位置(i,j)对于类别c的分类重要性。
采用引入注意力机制的损失函数在语义图像修复任务中进行训练,让类激活图中数值较大的区域(即更容易被注意到的区域)拥有更高的损失,按照下式计算得到重建损失Lres和上下文损失Lcon
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,/>表示输入损坏图像/>后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (17)
其中,β表示权值系数,本发明中β=0.01。
按照下式计算得到最终语义图像修复使用的损失函数,即引入注意力机制的MSE均方误差损失函数,其计算表达式如下:
Linpainting=wresLres+wconLcon (18)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,本发明中wres=0.95,wcon为上下文损失加权系数,本发明中wcon=0.05。
5、训练得到语义图像修复模型
设定最小损失函数值Lmin初始时为105,将步骤3处理后的训练集中的所有图像输入到编解码图像修复网络中进行训练,得到训练好的网络。其中,编解码图像修复网络是以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸,使用公式(18)的引入注意力机制的MSE均方误差损失函数作为编解码图像修复网络的损失函数,并设定共训练400epoch。具体训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;随后在初步训练后的网络中输入经过处理的所有测试集数据,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练;重复这一步骤直至完成设定的训练epoch数。
将训练好的编解码网络结构进行微调,即:去掉网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型,以实现精确的像素级预测。
6、语义分割
以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到语义分割网络模型中进行训练,训练200epoch,得到训练好的模型。平均交并比mIoU按照下式计算得到:
其中,n表示数据集中图像的标签类别数,c为类别序号,IoUc表示类别c的交并比,按照下式计算得到:
其中,TPc表示标签为类别c且被预测为类别c的像素数目,FPc表示标签不是类别c但被预测为类别c的像素数目,FNc表示标签为类别c但被预测为其他类别的像素数目。
然后,将测试集中的图像输入到训练好的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,以实现可视化,得到与原图像尺寸相同的分割结果图像。
本发明通过一种语义图像修复任务作为自监督学习的辅助任务在仅有少量标签的对地观测图像数据集上实现语义分割,采用自监督学习的方式充分利用无标签的对地观测图像数据,提高编解码网络在待分割数据集上的特征提取能力,并将训练好的编解码网络应用到语义分割任务中,显著提高语义分割精度。本发明通过引入显著性检测生成带有语义意义的掩膜,在自监督学习阶段增加修复任务的难度,训练出能够提取修复较为困难的复杂区域特征的模型。由于采用注意力机制增强了语义图像修复任务的损失函数,有针对性地提高对分类有帮助的区别性图像区域的特征提取能力,有效解决图片多样性强、类间目标相似性强导致分割精度低的难题。将训练好的编解码网络经过微调应用到语义分割任务中,能够有效地提高对地观测图像数据集的语义分割精度。

Claims (4)

1.一种基于自监督学习的对地观测图像语义分割方法,其特征在于步骤如下:
步骤1:将待处理对地观测图像数据集按照8:2的比例划分为训练集和测试集两部分,其中,训练集中10%的图像带标签、其余图像不带标签,并对每幅图像进行数据增广操作;
步骤2:分别将训练集和测试集中的每一幅图像按以下过程进行处理:
步骤a:对图像进行显著性检测,具体处理过程如下:
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差;
然后,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],ω(rl)表示区域rl包含的像素数量;Dc(rk,rl)表示区域rk和区域rl之间的颜色距离函数值;
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像;
步骤b:对显著性检测结果进行二值化处理,得到与原图像对应的掩膜,具体处理过程为:以显著性检测结果图像的平均灰度值作为阈值,将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0,将显著性检测结果图像中像素灰度值小于阈值的像素值置为1,并统计值置为0的像素个数占图像像素总数的比例α,如果α<0.25,则随机将显著性检测结果图像20%的像素块中的像素值置为0,如果α>0.5,则随机将显著性检测结果图像20%的像素块中的像素值置为1,此时得到的图像即为与原图像对应的掩膜;所述的像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块;
步骤c:利用掩膜对原图像进行覆盖处理,得到损坏图像,具体为:按照下式计算得到损坏图像:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,⊙表示像素点积计算;
步骤3:将步骤2处理后的训练集和测试集中的图像输入到编解码图像修复网络中进行训练,设定网络的损失函数为引入注意力机制的MSE均方误差损失,并训练400epoch,得到训练好的模型;所述的编解码图像修复网络以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸;
然后,去掉训练好的编解码图像修复网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型;
步骤4:以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到步骤3得到的语义分割网络模型中训练200epoch,再将测试集中的图像输入到训练后的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,得到与原图像尺寸相同的分割结果图像。
2.如权利要求1所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下:
Linpainting=wresLres+wconLcon (4)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,wres=0.95,wcon为上下文损失加权系数,wcon=0.05;
重建损失Lres和上下文损失Lcon的计算公式分别为:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,/>表示输入损坏图像/>后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的任一类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (7)
其中,β表示权值系数,β=0.01,Mc表示类激活图,其每个像素值按照下式计算得到:
其中,(i,j)表示像素坐标,i,j=1,2,…,n,Mc(i,j)表示位置(i,j)处的像素类激活值,k表示网络模型中最后一层卷积层中的节点序号,取值范围为1,2,…,K,K为模型中最后一层卷积层包含的节点总数,fk(i,j)表示位置(i,j)处的第k个节点的激活值,是节点k对图像中类别c的权重,取值为全局平均池化层在节点k的梯度。
3.如权利要求1所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤3训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;然后,将处理后的测试集中的所有图像输入到初步训练后的网络,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练;重复前述过程,直至完成设定的训练epoch数,得到训练好的网络;其中,最小损失函数值Lmin初始时设置为105
4.如权利要求1所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤4所述的平均交并比mIoU按照下式计算得到:
其中,n表示数据集中图像的标签类别数,c为类别序号,IoUc表示类别c的交并比,按照下式计算得到:
其中,TPc表示标签为类别c且被预测为类别c的像素数目,FPc表示标签不是类别c但被预测为类别c的像素数目,FNc表示标签为类别c但被预测为其他类别的像素数目。
CN202011177523.5A 2020-10-28 2020-10-28 基于自监督学习的对地观测图像语义分割方法 Active CN112308860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011177523.5A CN112308860B (zh) 2020-10-28 2020-10-28 基于自监督学习的对地观测图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011177523.5A CN112308860B (zh) 2020-10-28 2020-10-28 基于自监督学习的对地观测图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112308860A CN112308860A (zh) 2021-02-02
CN112308860B true CN112308860B (zh) 2024-01-12

Family

ID=74330525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011177523.5A Active CN112308860B (zh) 2020-10-28 2020-10-28 基于自监督学习的对地观测图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112308860B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129309B (zh) * 2021-03-04 2023-04-07 同济大学 基于对象上下文一致性约束的医学图像半监督分割系统
CN112784821A (zh) * 2021-03-06 2021-05-11 深圳市安比智慧科技有限公司 基于YOLOv5的工地行为安全检测识别方法及系统
CN113191365B (zh) * 2021-05-12 2023-04-21 北京邮电大学 一种文化语义图像重构效果评价方法
CN113160219B (zh) * 2021-05-12 2023-02-07 北京交通大学 用于无人机遥感图像的实时铁路场景解析方法
CN113221826B (zh) * 2021-05-31 2023-05-02 浙江工商大学 一种基于自监督学习显著性估计像素嵌入的道路检测方法
CN114358144B (zh) * 2021-12-16 2023-09-26 西南交通大学 一种图像分割质量评估方法
CN113989510B (zh) * 2021-12-28 2022-03-11 深圳市万物云科技有限公司 一种河道排水口溢流检测方法、装置及相关设备
CN114004973B (zh) * 2021-12-30 2022-12-27 深圳比特微电子科技有限公司 用于图像语义分割的解码器及其实现方法
CN114881917A (zh) * 2022-03-17 2022-08-09 深圳大学 基于自监督和语义分割的溶栓疗效预测方法及相关装置
CN114677515B (zh) * 2022-04-25 2023-05-26 电子科技大学 基于类间相似性的弱监督语义分割方法
CN114972313B (zh) * 2022-06-22 2024-04-19 北京航空航天大学 图像分割网络预训练方法及装置
CN115222942B (zh) * 2022-07-26 2023-06-02 吉林建筑大学 一种基于弱监督学习的新冠肺炎ct图像分割的方法
CN115147426B (zh) * 2022-09-06 2022-11-29 北京大学 基于半监督学习的模型训练与图像分割方法和系统
CN116229063B (zh) * 2023-01-08 2024-01-26 复旦大学 基于类别色彩化技术的语义分割网络模型及其训练方法
CN117058172A (zh) * 2023-08-24 2023-11-14 吉林大学 Ct图像多区域的分割方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833220A (zh) * 2017-11-28 2018-03-23 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法
CN110458172A (zh) * 2019-08-16 2019-11-15 中国农业大学 一种基于区域对比度检测的弱监督图像语义分割方法
CN110598610A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于神经选择注意的目标显著性检测方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833220A (zh) * 2017-11-28 2018-03-23 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法
CN110458172A (zh) * 2019-08-16 2019-11-15 中国农业大学 一种基于区域对比度检测的弱监督图像语义分割方法
CN110598610A (zh) * 2019-09-02 2019-12-20 北京航空航天大学 一种基于神经选择注意的目标显著性检测方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度卷积神经网络图像语义分割研究进展;青晨;禹晶;肖创柏;段娟;;中国图象图形学报(第06期);全文 *

Also Published As

Publication number Publication date
CN112308860A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112308860B (zh) 基于自监督学习的对地观测图像语义分割方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN108399419B (zh) 基于二维递归网络的自然场景图像中中文文本识别方法
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
Mou et al. RiFCN: Recurrent network in fully convolutional network for semantic segmentation of high resolution remote sensing images
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN111369572B (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN107516316B (zh) 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法
CN108491836B (zh) 一种自然场景图像中中文文本整体识别方法
CN109035172B (zh) 一种基于深度学习的非局部均值超声图像去噪方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN112560717A (zh) 一种基于深度学习的车道线检测方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN109919215B (zh) 基于聚类算法改进特征金字塔网络的目标检测方法
Nair et al. T2V-DDPM: Thermal to visible face translation using denoising diffusion probabilistic models
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant