CN112308860A - 基于自监督学习的对地观测图像语义分割方法 - Google Patents
基于自监督学习的对地观测图像语义分割方法 Download PDFInfo
- Publication number
- CN112308860A CN112308860A CN202011177523.5A CN202011177523A CN112308860A CN 112308860 A CN112308860 A CN 112308860A CN 202011177523 A CN202011177523 A CN 202011177523A CN 112308860 A CN112308860 A CN 112308860A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- value
- network
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 12
- 239000003086 colorant Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 230000002950 deficient Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 9
- 238000002372 labelling Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码图像修复网络进行预训练,并引入显著性检测和注意力机制,以提高网络的区域特征提取能力;随后,将预训练的网络经过微调用于语义分割任务,实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题,具有更高的语义分割精度。
Description
技术领域
本发明属计算机视觉、语义分割技术领域,具体涉及一种基于自监督学习的对地观测图像语义分割方法。
背景技术
语义分割是计算机视觉领域中一个重要而富有挑战性的任务,它的目标是把图像以像素级分割成不同语义类别的区域块,并给出每个像素的类别标签。对地观测图像是由成像卫星、无人机等捕获的高空图像,近年来对对地观测图像进行语义分割任务得到学者的普遍关注,并在作物产量预测、路网提取、场景解析和植被覆盖等许多应用中有着重要的应用前景。目前,对地观测图像的语义分割存在以下问题:(1)类间实例的相似性和类内物体的差异性问题,并且背景较为复杂难以区分;(2)图片的多样性强、标注难度大,需要领域专家进行标注,难以获得大规模的像素级别标注的数据集。
随着深度学习的发展,语义分割架构通常使用编码器和解码器,主要采用的是卷积神经网络结构,其在图像特征提取方面的优异表现得益于大量带标签的训练数据。然而,手工标注的难度大且时间代价高昂,这一问题在要求像素级别标签的语义分割方面尤为突出。因此,仅使用少量的带有像素级别标签的数据进行训练,或者采用相对容易的标注方式如图片分类标签进行标注的弱监督学习方法受到越来越多的关注。近年来,许多研究者致力于采用自监督学习技术进行模型的预训练,利用辅助任务从无标签数据中自行学习,无需任何标注数据。文献“Pathak D,Krahenbuhl P,Donahue J,et al.Context Encoders:Feature Learning by Inpainting[C]//2016IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2016.”提出了基于上下文像素预测的无监督视觉特征学习算法,主要思路是结合编解码网络结构和对抗生成网络实现语义图像的修复,其上下文编码器使用卷积神经网络的结构,可以有效地对周围环境信息进行特征提取从而实现图像修复的任务。文献“Hung W C,Tsai Y H,Liou Y T,et al.Adversarial Learning forSemi-Supervised Semantic Segmentation[J].2018.”采用对抗训练的方式,利用未标记图像来增强语义分割模型,提高了半监督学习语义分割的精度。文献“Singh S,Batra A,Pang G,et al.Self-Supervised Feature Learning for Semantic Segmentation ofOverhead Imagery[C]//BMVC,2018.2018.”将语义图像修复任务作为辅助任务进行自监督学习,通过利用无标签的数据对上下文编码器进行训练,随后将与训练好的网络应用于其他视觉任务中,但是由于采用对抗训练收敛性差,分割效果不够理想。
发明内容
为了克服现有技术的不足,本发明提供一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码网络进行预训练,并引入显著性检测和注意力机制,以提高网络的区域特征提取能力;随后,将预训练的网络经过微调用于语义分割任务,实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题,具有更高的语义分割精度。
一种基于自监督学习的对地观测图像语义分割方法,其特征在于步骤如下:
步骤1:将待处理对地观测图像数据集按照8:2的比例划分为训练集和测试集两部分,其中,训练集中10%的图像带标签、其余图像不带标签,并对每幅图像进行数据增广操作;
步骤2:分别将训练集和测试集中的每一幅图像按以下过程进行处理:
步骤a:对图像进行显著性检测;
步骤b:对显著性检测结果进行二值化处理,得到与原图像对应的掩膜;
步骤c:利用掩膜对原图像进行覆盖处理,得到损坏图像;
步骤3:将步骤2处理后的训练集和测试集中的图像输入到编解码图像修复网络中进行训练,设定网络的损失函数为引入注意力机制的MSE均方误差损失,并训练400epoch,得到训练好的模型;所述的编解码图像修复网络以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸;
然后,去掉训练好的编解码图像修复网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型;
步骤4:以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到步骤3得到的语义分割网络模型中训练200epoch,再将测试集中的图像输入到训练后的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,得到与原图像尺寸相同的分割结果图像。
进一步,步骤2中的步骤a所述的显著性检测的具体处理过程如下:
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差;Dc(rk,rl)表示区域rk和区域rl之间的颜色距离函数值;
然后,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],ω(rl)表示区域rl包含的像素数量;
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像。
进一步,步骤2中的步骤b的具体处理过程为:以显著性检测结果图像的平均灰度值作为阈值,将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0,将显著性检测结果图像中像素灰度值小于阈值的像素值置为1,并统计值置为0的像素个数占图像像素总数的比例α,如果α<0.25,则随机将显著性检测结果图像20%的像素块中的像素值置为0,如果α>0.5,则随机将显著性检测结果图像20%的像素块中的像素值置为1,此时得到的图像即为与原图像对应的掩膜;所述的像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块。
进一步,步骤2中的步骤c的具体处理过程为:按照下式计算得到损坏图像:
进一步,步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下:
Linpainting=wresLres+wconLcon (4)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,本发明中wres=0.95,wcon为上下文损失加权系数,本发明中wcon=0.05;
重建损失Lres和上下文损失Lcon的计算公式分别为:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,表示输入损坏图像后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的任一类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (7)
其中,β表示权值系数,本发明中β=0.01,Mc表示类激活图,其每个像素值按照下式计算得到:
其中,(i,j)表示像素坐标,i,j=1,2,…,n,Mc(i,j)表示位置(i,j)处的像素类激活值,k表示网络模型中最后一层卷积层中的节点序号,取值范围为1,2,…,K,K为模型中最后一层卷积层包含的节点总数,fk(i,j)表示位置(i,j)处的第k个节点的激活值,是节点k对图像中类别c的权重,本发明中取值为全局平均池化层在节点k的梯度。
进一步,步骤3所述的训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;然后,将处理后的测试集中的所有图像输入到初步训练后的网络,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练,重复前述过程,直至完成设定的训练epoch数,得到训练好的网络;其中,最小损失函数值Lmin初始时设置为105。
进一步,步骤4所述的平均交并比mIoU按照下式计算得到:
其中,n表示数据集中图像的标签类别数,c为类别序号,IoUc表示类别c的交并比,按照下式计算得到:
其中,TPc表示标签为类别c且被预测为类别c的像素数目,FPc表示标签不是类别c但被预测为类别c的像素数目,FNc表示标签为类别c但被预测为其他类别的像素数目。
本发明的有益效果是:(1)由于采用自监督学习技术在仅有少量标签的数据集上实现了对地观测图像的语义分割任务,能够利用语义图像修复作为辅助任务对编解码网络进行预训练,充分使用无标签的对地观测图像,提高编解码网络在待分割数据集上的特征提取能力,从而提高语义分割的精度;(2)由于采用显著性检测生成有语义意义的掩膜,在自监督阶段增加修复任务的难度,使得编解码网络能够更好地学习修复较为困难的复杂区域特征;(3)由于引入注意力机制的MSE均方误差损失函数,对分类有帮助的区别性图像区域能够得到更高的损失,可以更有针对性地提高部分类别的特征提取能力。
附图说明
图1是本发明的基于自监督学习的对地观测图像语义分割方法流程图;
图2是本发明的基于自监督学习的对地观测图像语义分割方法示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于自监督学习的对地观测图像语义分割方法,其具体实现过程如下:
1、数据集预处理
将待处理对地观测图像数据集(如ISPRS Potsdam数据集)按照8:2的比例划分为训练集和测试集两部分,其中,训练集中只有少量,即10%的图像带标签,其余图像不带标签。对数据集中图像进行了切割之后,再进行翻转变换、随机旋转变换、上下左右平移变换、随机裁切、大小缩放变换等增广操作。整个训练集是图像修复模型的输入以训练模型参数,带标签数据为语义分割任务的输入,测试集分别用于编解码网络特征提取性能和最终语义分割精度的测试评价。
2、对数据进行显著性检测并生成掩膜
对训练集和测试集中的每一幅图像计算空间加权的区域对比度,得到与输入图像相同尺寸的显著性检测图像。
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差。
然后,在全局范围内进行加权计算区域对比度,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],其数值越大权值影响越小。ω(rl)表示区域rl包含的像素数量。Dc(rk,rl)为利用公式(11)计算的区域rk和区域rl之间的颜色距离函数值。
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像。
计算显著性图像的均值将其设定为阈值,若像素的灰度值大于阈值则设置为0,小于则设置为1,同时计算当前擦除比例(0像素的占比)α,由于的图片中显著性区域在图片中的占比差异较大,若α<0.25,则随机擦除部分区域,即将显著性检测结果图像20%的像素块中的像素值置为0,若α>0.5,则随机删减部分显著性检测区域,即将显著性检测结果图像20%的像素块中的像素值置为1,得到最终掩膜。其中,像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块。
3、生成语义图像修复任务的输入数据
将步骤2得到的掩膜覆盖在对应图像上,其中对于每幅图像的掩膜M,掩膜值为0的像素从图像中擦除,为1的像素保持不变,即按照下式计算得到覆盖掩膜之后的损坏图像:
4、设计引入注意力机制的损失函数
按照下式计算得到类别c的类激活图Mc:
其中,(i,j)表示像素坐标,i,j=1,2,…,n,Mc(i,j)表示位置(i,j)处的像素类激活值,k表示网络模型中最后一层卷积层中的节点序号,取值范围为1,2,…,K,K为模型中最后一层卷积层包含的节点总数,fk(i,j)表示位置(i,j)处的第k个节点的激活值,是节点k对图像中类别c的权重,本发明中取值为全局平均池化层在节点k的梯度。
类激活图Mc用来表示激活空间位置(i,j)对于类别c的分类重要性。
采用引入注意力机制的损失函数在语义图像修复任务中进行训练,让类激活图中数值较大的区域(即更容易被注意到的区域)拥有更高的损失,按照下式计算得到重建损失Lres和上下文损失Lcon:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,表示输入损坏图像后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (17)
其中,β表示权值系数,本发明中β=0.01。
按照下式计算得到最终语义图像修复使用的损失函数,即引入注意力机制的MSE均方误差损失函数,其计算表达式如下:
Linpainting=wresLres+wconLcon (18)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,本发明中wres=0.95,wcon为上下文损失加权系数,本发明中wcon=0.05。
5、训练得到语义图像修复模型
设定最小损失函数值Lmin初始时为105,将步骤3处理后的训练集中的所有图像输入到编解码图像修复网络中进行训练,得到训练好的网络。其中,编解码图像修复网络是以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸,使用公式(18)的引入注意力机制的MSE均方误差损失函数作为编解码图像修复网络的损失函数,并设定共训练400epoch。具体训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;随后在初步训练后的网络中输入经过处理的所有测试集数据,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练;重复这一步骤直至完成设定的训练epoch数。
将训练好的编解码网络结构进行微调,即:去掉网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型,以实现精确的像素级预测。
6、语义分割
以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到语义分割网络模型中进行训练,训练200epoch,得到训练好的模型。平均交并比mIoU按照下式计算得到:
其中,n表示数据集中图像的标签类别数,c为类别序号,IoUc表示类别c的交并比,按照下式计算得到:
其中,TPc表示标签为类别c且被预测为类别c的像素数目,FPc表示标签不是类别c但被预测为类别c的像素数目,FNc表示标签为类别c但被预测为其他类别的像素数目。
然后,将测试集中的图像输入到训练好的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,以实现可视化,得到与原图像尺寸相同的分割结果图像。
本发明通过一种语义图像修复任务作为自监督学习的辅助任务在仅有少量标签的对地观测图像数据集上实现语义分割,采用自监督学习的方式充分利用无标签的对地观测图像数据,提高编解码网络在待分割数据集上的特征提取能力,并将训练好的编解码网络应用到语义分割任务中,显著提高语义分割精度。本发明通过引入显著性检测生成带有语义意义的掩膜,在自监督学习阶段增加修复任务的难度,训练出能够提取修复较为困难的复杂区域特征的模型。由于采用注意力机制增强了语义图像修复任务的损失函数,有针对性地提高对分类有帮助的区别性图像区域的特征提取能力,有效解决图片多样性强、类间目标相似性强导致分割精度低的难题。将训练好的编解码网络经过微调应用到语义分割任务中,能够有效地提高对地观测图像数据集的语义分割精度。
Claims (7)
1.一种基于自监督学习的对地观测图像语义分割方法,其特征在于步骤如下:
步骤1:将待处理对地观测图像数据集按照8:2的比例划分为训练集和测试集两部分,其中,训练集中10%的图像带标签、其余图像不带标签,并对每幅图像进行数据增广操作;
步骤2:分别将训练集和测试集中的每一幅图像按以下过程进行处理:
步骤a:对图像进行显著性检测;
步骤b:对显著性检测结果进行二值化处理,得到与原图像对应的掩膜;
步骤c:利用掩膜对原图像进行覆盖处理,得到损坏图像;
步骤3:将步骤2处理后的训练集和测试集中的图像输入到编解码图像修复网络中进行训练,设定网络的损失函数为引入注意力机制的MSE均方误差损失,并训练400epoch,得到训练好的模型;所述的编解码图像修复网络以ResNet18网络为基础,剔除其全连接层并增加五组反卷积层和像素级回归层得到,网络输出图像与输入图像具有相同尺寸;
然后,去掉训练好的编解码图像修复网络中的像素级回归层,采用跳跃连接的特征融合方式,并加入像素级分类层,得到用于语义分割的网络模型;
步骤4:以平均交并比mIoU作为语义分割精度的评价指标,将训练集中带标签的图像输入到步骤3得到的语义分割网络模型中训练200epoch,再将测试集中的图像输入到训练后的模型中,模型输出每个像素点的预测类别,按照不同颜色对不同类别像素进行渲染,得到与原图像尺寸相同的分割结果图像。
2.如权利要求1所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤2中的步骤a所述的显著性检测的具体处理过程如下:
首先,采用基于图的图像分割技术将图像分割为互不重叠的若干区域,并按照下式计算得到每两个区域之间的颜色距离函数值:
其中,Dc(r1,r2)表示区域r1和区域r2之间的颜色距离函数值,n1表示区域r1中包含的像素颜色总数,n2表示区域r2中包含的像素颜色总数,p1(i)表示区域r1中第i种像素颜色出现的概率,p2(j)表示区域r2中第j种像素颜色出现的概率,i和j分别为区域r1和区域r2中的像素颜色序号;ci表示区域r1中的第i个像素颜色,cj表示区域r2中的第j个像素颜色,D(ci,cj)表示L*a*b色彩空间中两个像素颜色ci和cj之间的色差;
然后,按照下式计算得到每个区域的显著性值:
其中,S(rk)表示区域rk的显著性值,rk表示第k个区域,rl表示第l个区域,k,l=1,2,…,K,且k≠l,K为区域总数,DS(rk,rl)表示两个区域rk和rl之间的欧氏距离,σS为空间距离控制权值,取值范围为[0.4,0.5],ω(rl)表示区域rl包含的像素数量;Dc(rk,rl)表示区域rk和区域rl之间的颜色距离函数值;
将图像中的像素值置为其所属区域的显著性值,得到显著性检测结果图像。
3.如权利要求1或2所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤2中的步骤b的具体处理过程为:以显著性检测结果图像的平均灰度值作为阈值,将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0,将显著性检测结果图像中像素灰度值小于阈值的像素值置为1,并统计值置为0的像素个数占图像像素总数的比例α,如果α<0.25,则随机将显著性检测结果图像20%的像素块中的像素值置为0,如果α>0.5,则随机将显著性检测结果图像20%的像素块中的像素值置为1,此时得到的图像即为与原图像对应的掩膜;所述的像素块是将图像进行均匀切分得到的像素区域,共切分成16×16个像素块。
5.如权利要求1、2、3或4所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下:
Linpainting=wresLres+wconLcon (4)
其中,Linpainting表示网络的总损失函数,Lres为重建损失,Lcon为上下文损失,wres为重建损失加权系数,本发明中wres=0.95,wcon为上下文损失加权系数,本发明中wcon=0.05;
重建损失Lres和上下文损失Lcon的计算公式分别为:
其中,表示掩膜覆盖后的损坏图像,x表示原图像,M表示图像x对应的掩膜,M1表示大小与M相同、元素值均为1的矩阵,i,j分别表示矩阵的行号和列号,图像大小为n×n,Mi,j表示图像M中位置为第i行j列的像素值,M1 i,j表示矩阵M1中第i行j列元素值,表示输入损坏图像后网络的输出图像,F((M1-M)⊙x)表示输入(M1-M)⊙x后网络的输出,Wc表示待增强的任一类别c的权重矩阵,其计算公式如下:
Wc=(1+βMc) (7)
其中,β表示权值系数,本发明中β=0.01,Mc表示类激活图,其每个像素值按照下式计算得到:
6.如权利要求1、2、3、4或5所述的一种基于自监督学习的对地观测图像语义分割方法,其特征在于:步骤3所述的训练过程为:首先,将处理后的训练集中的所有图像输入到图像修复网络进行一次训练,得到初步训练的网络模型;然后,将处理后的测试集中的所有图像输入到初步训练后的网络,并计算网络损失函数值,记为Ltest,如果Ltest>Lmin则进入下一轮训练,Lmin为最小损失函数值;否则,按照Lmin=Ltest更新最小损失函数值,并保存当前模型参数,进入下一轮训练;重复前述过程,直至完成设定的训练epoch数,得到训练好的网络;其中,最小损失函数值Lmin初始时设置为105。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011177523.5A CN112308860B (zh) | 2020-10-28 | 2020-10-28 | 基于自监督学习的对地观测图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011177523.5A CN112308860B (zh) | 2020-10-28 | 2020-10-28 | 基于自监督学习的对地观测图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308860A true CN112308860A (zh) | 2021-02-02 |
CN112308860B CN112308860B (zh) | 2024-01-12 |
Family
ID=74330525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011177523.5A Active CN112308860B (zh) | 2020-10-28 | 2020-10-28 | 基于自监督学习的对地观测图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308860B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784821A (zh) * | 2021-03-06 | 2021-05-11 | 深圳市安比智慧科技有限公司 | 基于YOLOv5的工地行为安全检测识别方法及系统 |
CN113129309A (zh) * | 2021-03-04 | 2021-07-16 | 同济大学 | 基于对象上下文一致性约束的医学图像半监督分割系统 |
CN113160219A (zh) * | 2021-05-12 | 2021-07-23 | 北京交通大学 | 用于无人机遥感图像的实时铁路场景解析方法 |
CN113191365A (zh) * | 2021-05-12 | 2021-07-30 | 北京邮电大学 | 一种文化语义图像重构效果评价方法 |
CN113221826A (zh) * | 2021-05-31 | 2021-08-06 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
CN113989510A (zh) * | 2021-12-28 | 2022-01-28 | 深圳市万物云科技有限公司 | 一种河道排水口溢流检测方法、装置及相关设备 |
CN114004973A (zh) * | 2021-12-30 | 2022-02-01 | 深圳比特微电子科技有限公司 | 用于图像语义分割的解码器及其实现方法 |
CN114358144A (zh) * | 2021-12-16 | 2022-04-15 | 西南交通大学 | 一种图像分割质量评估方法 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114881917A (zh) * | 2022-03-17 | 2022-08-09 | 深圳大学 | 基于自监督和语义分割的溶栓疗效预测方法及相关装置 |
CN114972313A (zh) * | 2022-06-22 | 2022-08-30 | 北京航空航天大学 | 图像分割网络预训练方法及装置 |
CN115147426A (zh) * | 2022-09-06 | 2022-10-04 | 北京大学 | 基于半监督学习的模型训练与图像分割方法和系统 |
CN115222942A (zh) * | 2022-07-26 | 2022-10-21 | 吉林建筑大学 | 一种基于弱监督学习的新冠肺炎ct图像分割的方法 |
CN116229063A (zh) * | 2023-01-08 | 2023-06-06 | 复旦大学 | 基于类别色彩化技术的语义分割网络模型及其训练方法 |
CN117058172A (zh) * | 2023-08-24 | 2023-11-14 | 吉林大学 | Ct图像多区域的分割方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833220A (zh) * | 2017-11-28 | 2018-03-23 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN110598610A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于神经选择注意的目标显著性检测方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN111797779A (zh) * | 2020-07-08 | 2020-10-20 | 兰州交通大学 | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 |
-
2020
- 2020-10-28 CN CN202011177523.5A patent/CN112308860B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833220A (zh) * | 2017-11-28 | 2018-03-23 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN110598610A (zh) * | 2019-09-02 | 2019-12-20 | 北京航空航天大学 | 一种基于神经选择注意的目标显著性检测方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN111797779A (zh) * | 2020-07-08 | 2020-10-20 | 兰州交通大学 | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129309A (zh) * | 2021-03-04 | 2021-07-16 | 同济大学 | 基于对象上下文一致性约束的医学图像半监督分割系统 |
CN113129309B (zh) * | 2021-03-04 | 2023-04-07 | 同济大学 | 基于对象上下文一致性约束的医学图像半监督分割系统 |
CN112784821A (zh) * | 2021-03-06 | 2021-05-11 | 深圳市安比智慧科技有限公司 | 基于YOLOv5的工地行为安全检测识别方法及系统 |
CN113160219B (zh) * | 2021-05-12 | 2023-02-07 | 北京交通大学 | 用于无人机遥感图像的实时铁路场景解析方法 |
CN113160219A (zh) * | 2021-05-12 | 2021-07-23 | 北京交通大学 | 用于无人机遥感图像的实时铁路场景解析方法 |
CN113191365A (zh) * | 2021-05-12 | 2021-07-30 | 北京邮电大学 | 一种文化语义图像重构效果评价方法 |
CN113221826A (zh) * | 2021-05-31 | 2021-08-06 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
CN113221826B (zh) * | 2021-05-31 | 2023-05-02 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
CN114358144B (zh) * | 2021-12-16 | 2023-09-26 | 西南交通大学 | 一种图像分割质量评估方法 |
CN114358144A (zh) * | 2021-12-16 | 2022-04-15 | 西南交通大学 | 一种图像分割质量评估方法 |
CN113989510A (zh) * | 2021-12-28 | 2022-01-28 | 深圳市万物云科技有限公司 | 一种河道排水口溢流检测方法、装置及相关设备 |
CN114004973A (zh) * | 2021-12-30 | 2022-02-01 | 深圳比特微电子科技有限公司 | 用于图像语义分割的解码器及其实现方法 |
CN114881917A (zh) * | 2022-03-17 | 2022-08-09 | 深圳大学 | 基于自监督和语义分割的溶栓疗效预测方法及相关装置 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114972313A (zh) * | 2022-06-22 | 2022-08-30 | 北京航空航天大学 | 图像分割网络预训练方法及装置 |
CN114972313B (zh) * | 2022-06-22 | 2024-04-19 | 北京航空航天大学 | 图像分割网络预训练方法及装置 |
CN115222942A (zh) * | 2022-07-26 | 2022-10-21 | 吉林建筑大学 | 一种基于弱监督学习的新冠肺炎ct图像分割的方法 |
CN115147426A (zh) * | 2022-09-06 | 2022-10-04 | 北京大学 | 基于半监督学习的模型训练与图像分割方法和系统 |
CN116229063A (zh) * | 2023-01-08 | 2023-06-06 | 复旦大学 | 基于类别色彩化技术的语义分割网络模型及其训练方法 |
CN116229063B (zh) * | 2023-01-08 | 2024-01-26 | 复旦大学 | 基于类别色彩化技术的语义分割网络模型及其训练方法 |
CN117058172A (zh) * | 2023-08-24 | 2023-11-14 | 吉林大学 | Ct图像多区域的分割方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308860B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
Bahnsen et al. | Rain removal in traffic surveillance: Does it matter? | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
Meng et al. | Single-image dehazing based on two-stream convolutional neural network | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN114092439A (zh) | 一种多器官实例分割方法及系统 | |
CN113344932A (zh) | 一种半监督的单目标视频分割方法 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN114881871A (zh) | 一种融合注意力单幅图像去雨方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN114972378A (zh) | 一种基于掩码注意力机制的脑肿瘤mri图像分割方法 | |
CN115546466A (zh) | 一种基于多尺度显著特征融合的弱监督图像目标定位方法 | |
CN114565605A (zh) | 一种病理图像的分割方法及装置 | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN114022392A (zh) | 用于单幅图像去雾的串行注意增强UNet++去雾网络 | |
CN116883650A (zh) | 一种基于注意力和局部拼接的图像级弱监督语义分割方法 | |
Jia et al. | Single-image snow removal based on an attention mechanism and a generative adversarial network | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
CN112164078B (zh) | 基于编码器-解码器的rgb-d多尺度语义分割方法 | |
CN111627033B (zh) | 一种难样本实例分割方法、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |