CN111369572A - 一种基于图像修复技术的弱监督语义分割方法和装置 - Google Patents
一种基于图像修复技术的弱监督语义分割方法和装置 Download PDFInfo
- Publication number
- CN111369572A CN111369572A CN202010129164.XA CN202010129164A CN111369572A CN 111369572 A CN111369572 A CN 111369572A CN 202010129164 A CN202010129164 A CN 202010129164A CN 111369572 A CN111369572 A CN 111369572A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- segmentation
- training
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005516 engineering process Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 59
- 230000003628 erosive effect Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 24
- 230000010339 dilation Effects 0.000 claims description 10
- 230000008439 repair process Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006740 morphological transformation Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 3
- 241000272814 Anser sp. Species 0.000 description 2
- 241000272778 Cygnus atratus Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
一种基于图像修复技术的弱监督语义分割方法和装置,该方法包括如下步骤:S1、将原始图像输入到分割网络中,通过分割网络产生并输出原始图像中的物体的分割掩码;S2、对分割网络产生的分割掩码分别进行腐蚀和膨胀操作;S3、分别用经腐蚀和膨胀操作后的分割掩码对原始图像进行擦除;S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复;S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练,训练完成后,使用分割网络接收原始图像并输出预测结果。本发明可实现处理运算简化,实现了端到端的框架,可扩展性较强,且性能提升的空间大。
Description
技术领域
本发明涉及图像识别技术,特别是一种基于图像修复技术的弱监督语义分割方法和装置。
背景技术
在计算机视觉领域,图像识别、目标检测、语义分割是经典的任务,图像识别告诉人们图像中的物体是什么,目标检测定位目标所在的位置,而语义分割则是从像素级别回答以上两个问题,在地理信息系统,自动驾驶、医疗影像辅助诊断以及智能机器人等领域具有非常广泛而重要的应用,而得到语义分割模型需要大量像素级标注的训练样本,时间成本和人力成本很高,能否用更容易获取的标签数据进行弱监督的语义分割成为众多研究者感兴趣的问题。例如使用边界框、线条、点,甚至不用位置信息标注,仅仅使用图像级别的分类标签就可以实现语义分割。本发明的任务就是在仅有像素级分类标签的情况下,实现物体的弱监督语义分割。
目前,大多数弱监督语义分割领域依旧停留在学术研究阶段,能够应用的落地场景很少。不过我们现在发现一个趋势,以CAM为代表的弱监督方法在某些应用场景下已经可以达到很好的应用效果,分类网络可以通过自上而下的方式定位出图片上的哪些区域对物体分类的贡献较大,而这些区域往往属于对应语义的物体。然而,CAM方法的主要问题在于它只能发现最具判别力的一些物体区域(比如狗的头部),这些区域往往属于目标物体的某个部分并且分布稀疏。这同语义分割需要定位完整物体的目标并不一致。
2017年CVPR上为定位较为完整的物体,提出了一种Adversarial Erasing的方法。通过不断擦除物体上最具判别力的一些区域,使得分类网络发现更多的物体的其它区域,通过三次左右迭代获得整体的分割结果。
2018年CVPR上提出一种更简单的方式获得了更好的定位结果。物体的某个区域之所以会被定位出来,其实是因为这部分特征的判别力较强。如果这部分判别力较强的特征可以迁移到物体的其它区域,那么其它判别力较弱的区域也有可能被定位出来。这个想法可以很容易的通过加宽卷积(dilated convolution)的方式实现。
有的方法使用CAM获取最区分性的响应作为最初始的种子区域,然后通过扩张种子区域的方式使得监督逐渐变强。但是这些方法很难形成端到端的框架,而且流程较为繁琐,都需要多次扩充和更新监督信息,进行多轮训练。
发明内容
为了上述技术缺陷中的至少一种,本发明提供一种基于图像修复技术的弱监督语义分割方法和装置。
为实现上述目的,本发明采用以下技术方案:
一种基于图像修复技术的弱监督语义分割方法,包括如下步骤:
S1、将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码;
S2、对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作;
S3、分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除;
S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像;
S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练;其中,分类网络与修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果。
进一步地:
步骤S5中,对于经腐蚀操作后擦除和修复的图像,送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失函数进行约束,;对于经膨胀操作后擦除和修复的图像,送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失的相反数进行约束。
所述分割网络和/或所述分类网络和/或所述图像修复网络在PascalVOC2012掩码数据集上训练。
分割网络的训练具体包括:在数据集上用经过预训练的分类网络生成CAM,尤其是,通过使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM,通过设定阈值将显著性区域转换为分割种子掩码,每张图像与该图像中每个类别的种子掩码形成图像-种子掩码样本对,称之为掩码数据集,用于分割网络的预训练。
分类网络的训练具体包括:采用擦除-填充策略对图像进行预处理,使用每一张图片对应的种子掩码擦除该图像,然后使用图像修复网络进行填充,将该填充后的图像输入到分类网络中进行训练。
图像修复网络的训练具体包括:预训练所使用的擦除块为随机多边形,且尺度范围随机产生并且有一定的变化。
步骤S1中,所述分割网络通过softargmax的方式在通道维度上处理分割模型的输出特征图,使得获取掩码过程可导,便于梯度回传。
步骤S2中,所述腐蚀和膨胀操作通过可以传递梯度的卷积层实现。
一种基于图像修复技术的弱监督语义分割装置,包括:
分割模块,其将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码;
形态学变换模块,其对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作;
擦除模块,其分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除;
图像修复模块,其使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像;
分类模块,其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练;其中,分类网络与修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果。
一种基于图像修复技术的弱监督语义分割装置,其特征在于,包括至少一个存储器以及至少一个处理器;
所述存储器,包括存储于其中的至少一个可执行程序;
所述可执行程序在由所述处理器执行时,实现所述的图像修复技术的弱监督语义分割方法。
本发明具有如下有益效果:
本发明与传统的全监督语义分割任务相比,大大节省了标记开销,与普通的弱监督语义分割方法相比,本发明将弱监督语义分割任务集成在一个端到端的学习模型中,这里端到端指的是从输入图像到损失函数的全部计算过程均使用可导的操作或网络。图像修复网络可以扩展初始种子区域,通过引入形态学变换和相互制约的两个损失约束寻找物体边界,利用了所有可以用到的分类信息,且分割网络的训练过程只需要一轮迭代即可完成。而且,本发明扩展性较强,且性能提升的空间很大,通过采用具有相似功能的性能更好的网络,可以提高整体的预测准确率。
附图说明
图1为ImageNet上原始图像、原始图像叠加CAM以及原始图像叠加种子掩码的示例图。
图2示出形态学变化及擦除、修复操作对分类结果的影响。
图3为本发明一种实施例的基于形态学变换和图像修复技术的弱监督语义分割方法的流程图,其中也体现了本发明设计的弱监督语义分割框架。
具体实施方式
以下对本发明的实施方式作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明的关键思想在于:
1)设计了一种基于形态学变换和图像修复技术的弱监督语义分割框架,通过擦除和修复的方式扩大种子区域,通过形态学变换和相互制约的损失函数约束模型的训练。
2)继承了生成初始种子区域然后向周围扩展的弱监督语义分割方法,将分割网络训练的整个流程集成在一个端到端的框架中,这里端到端指的是从输入图像到损失函数的全部计算过程均使用可导的操作或网络,通过一轮训练获得分割模型。
不同于以往的方法,本发明实施例基于图像修复技术的弱监督语义分割方法中将CAM定位出来的区域擦除,将擦除后的图像送到预训练的分类网络中,使用分类信息约束分割网络训练。
弱监督语义分割任务中所使用的标签只有分类标签作为监督信息,本发明通过引入图像修复网络和分类网络辅助分割网络的训练,且过程中采用了腐蚀和膨胀的形态学操作约束物体边界。
本发明中通过引入补全网络设计端到端的框架,将擦除与修复集成到一个框架当中,只需要进行一轮训练即可获得分割模型。且本发明中的框架由各个可替换的组件构成,例如分割网络和图像修复网络,可以替换成具有相似功能的性能更好的网络,所以性能提升的空间很大。本发明将图像修复技术引入到弱监督语义分割任务中,模拟了人理解现实世界的思路,相对于仅仅使用分类标签的数据集实现语义分割任务提高了预测准确率。
参阅图3,本发明实施例提出一种基于形态学变换和图像修复技术的弱监督语义分割方法,包括如下步骤:
S1、将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码;
S2、对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作;
S3、分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除;
S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像;
S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练;其中,分类网络与修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果。
本发明实施例还提出一种基于形态学变换和图像修复技术的弱监督语义分割装置包括:
分割模块,其将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码,该模块需要经过预训练,所使用的数据集中的图像即为整体训练所使用数据集的图像,标签由CAM产生;
形态学变换模块,其对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作,该模块无需预训练;
擦除模块,其分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除,该模块无需预训练;
图像修复模块,其使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像,该模块需要预训练,预训练过程需要自行准备数据集,数据集中的图像与整体训练所使用的数据集中的图像保持一致,标签通过随机图像块擦除图像产生;
分类模块,其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练;分类网络与修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果,该模块需要进行预训练,预训练所使用的数据集的图像和标签与整体训练所使用的数据集保持一致。
以下结合附图进一步描述本发明具体实施例的特征和优点。
1)CAM
在某个数据集上经过预训练的分类网络可以用来生成CAM,CAM可以使物体的显著性区域凸显出来,通过一定阈值将显著性区域划分出来,得到对该物体的分割掩码种子区域,如图1所示为ImageNet上获得的CAM和分割掩码,对于每张图片上每一类物体都可以获得一个掩码,可以标记出物体的显著性区域,即分类网络依据图像的那一部分将该图片划分为该类别。
CAM生成的种子掩码经常可以作为初始掩码,经过各种掩码扩展策略,达到寻找整个物体掩码的效果。
2)基本思路
本发明基于形态学变换和图像修复网络进行弱监督语义分割。弱监督语义分割任务中所使用的标签只有分类标签作为监督信息,本发明通过引入图像修复网络和分类网络辅助分割网络的训练,且过程中采用了腐蚀和膨胀的形态学操作约束物体边界。
如图2所示,测试图片是ImageNet数据集中的一只鹅,对理想情况下鹅的分割掩码分别进行腐蚀和膨胀操作,然后使用生成的两个新掩码擦除测试图像,再分别对测试图像进行补全。每张图像右上角表示送入分类网络后被分成黑天鹅的概率。可以看到腐蚀、擦除和修复操作的结果图会使网络能够成功分类出黑天鹅这一类别,属于鹅的概率为0.64435,而膨胀、擦除和修复操作后的结果图则会使得分类为鹅的正确率为0.00012。而如果原始掩码不是理想掩码,则难以出现这种情况,因此,我们希望腐蚀处理尽可能减小分错的概率,而膨胀操作尽可能减小分对的概率,基于此,我们构建了本发明中的模型。
3)模型结构设计
基于上述分析,本发明实施例设计了图3所示的框架。本发明实施例的结构主要由以下几个模块组成:
1.分割网络。该分割网络可以使用DeepLabV3+或HRNet等网络结构,对于输入的图像(原始图像),首先输入到分割网络中,网络会输出对图中物体的定位区域(分割掩码),该网络需要使用图像-CAM掩码对进行预训练。这里通过softargmax的方式处理分割网络输出的特征图,使得获取掩码过程可导,便于梯度回传;
2.形态学变换模块。对分割网络产生的分割掩码分别进行腐蚀和膨胀操作,再用分别用腐蚀和膨胀后的分割掩码擦除原始图像。这里的腐蚀和膨胀通过可以传递梯度的卷积层实现;
3.图像修复模块。使用孪生的图像修复网络对两张擦除的原始图像进行修复,修复网络输出两张修复后的图像;
4.分类模块。这里的分类网络可以选择resnet等类型,将修复后的两张图像送进在ImageNet中经过预训练的孪生的分类网络中进行分类,可以获得两张图像属于各个类别的可能性向量。
5.损失函数。这里使用两个损失函数,对于经过掩码腐蚀、擦除原图、修复后的图像,我们希望网络尽可能可以分类出来修复后的图像,即对该图像所属实际类别的预测准确率尽可能高,因此使用普通网络的softmax损失约束,即使用真实标签的one-hot编码约束网络输出概率向量;对于经过掩码膨胀、擦除和修复后的图像,我们希望网络尽可能分辨不出图像中的物体,即对每一个类别的预测可能性尽可能一致,因此使用MSE等损失约束,使得每个类别的可能性尽可能相等,以1000类ImageNet为例,标签即为每一个值都为0.001的1000维向量。
4)训练流程
我们以PascalVOC2012为训练和测试数据集进行说明,该数据集是一个既有分类标签又有分割标签的数据集,但是我们只使用分类标签作为唯一监督信息,数据集中涵盖有20类物体,每张图像上有一种或多种物体。使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM,通过一定阈值将显著性区域转换为分割种子掩码,形成一系列图像-种子掩码样本对,称之为掩码数据集。
1.预训练模型。
分割网络是训练过程的最终产物,需要在PascalVOC2012掩码数据集上训练分割网络,使得模型获得初始效果。
分类网络需要在PascalVOC2012上进行预训练,为了增加鲁棒性,这里采用擦除-填充策略对图像进行预处理,使用每一张图片对应的种子掩码擦除该图像,然后使用图像修复网络进行填充,将该填充后的图像输入到分类网络中进行训练。
图像修复网络也需要在PascalVOC2012上进行预训练,所使用的擦除块为随机多边形,且尺度范围随机产生且有一定的变化。
2.训练过程。在训练过程中,图像修复网络和分类网络的参数不再更新,只有分割网络的参数保持更新。
3.测试过程:分割网络训练完成后,使用该分割网络对图像进行预测。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。
Claims (10)
1.一种基于图像修复技术的弱监督语义分割方法,其特征在于,包括如下步骤:
S1、将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码;
S2、对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作;
S3、分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除;
S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像;
S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练;其中,分类网络与图像修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果。
2.如权利要求1所述的基于图像修复技术的弱监督语义分割方法,其特征在于,步骤S5中,对于经腐蚀操作后擦除和修复的图像,送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失函数进行约束;对于经膨胀操作后擦除和修复的图像,送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失的相反数进行约束。
3.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法,其特征在于,所述分割网络和/或所述分类网络和/或所述图像修复网络在PascalVOC2012掩码数据集上训练。
4.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法,其特征在于,分割网络的训练具体包括:在数据集上用经过预训练的分类网络生成CAM,尤其是,通过使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM,通过设定阈值将显著性区域转换为分割种子掩码,每张图像与该图像中每个类别的种子掩码形成图像-种子掩码样本对,称之为掩码数据集,用于分割网络的预训练。
5.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法,其特征在于,分类网络的训练具体包括:采用擦除-填充策略对图像进行预处理,使用每一张图片对应的种子掩码擦除该图像,然后使用图像修复网络进行填充,将该填充后的图像输入到分类网络中进行训练。
6.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法,其特征在于,图像修复网络的训练具体包括:预训练所使用的擦除块为随机多边形,且尺度范围随机产生并且有一定的变化。
7.如权利要求1至6任一项所述的基于图像修复技术的弱监督语义分割方法,其特征在于,步骤S1中,所述分割网络通过softargmax的方式在通道维度上处理分割模型的输出特征图,使得获取掩码过程可导,便于梯度回传。
8.如权利要求1至6任一项所述的基于图像修复技术的弱监督语义分割方法,其特征在于,步骤S2中,所述腐蚀和膨胀操作通过可以传递梯度的卷积层实现。
9.一种基于图像修复技术的弱监督语义分割装置,其特征在于,包括:
分割模块,其将原始图像输入到分割网络中,通过所述分割网络产生并输出所述原始图像中的物体的分割掩码;
形态学变换模块,其对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作;
擦除模块,其分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除;
图像修复模块,其使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复,输出修复后的两张图像;
分类模块,其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类,获得两张图像属于各个类别的可能性向量,使用不同的损失函数约束训练,其中,分类网络与图像修复网络经过预训练且模型参数在训练过程中固定,仅分割网络参数更新,训练完成后,使用分割网络接收原始图像并输出预测结果。
10.一种基于图像修复技术的弱监督语义分割装置,其特征在于,其特征在于,包括至少一个存储器以及至少一个处理器;
所述存储器,包括存储于其中的至少一个可执行程序;
所述可执行程序在由所述处理器执行时,实现如权利要求1至8中任一项所述的图像修复技术的弱监督语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129164.XA CN111369572B (zh) | 2020-02-28 | 2020-02-28 | 一种基于图像修复技术的弱监督语义分割方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129164.XA CN111369572B (zh) | 2020-02-28 | 2020-02-28 | 一种基于图像修复技术的弱监督语义分割方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369572A true CN111369572A (zh) | 2020-07-03 |
CN111369572B CN111369572B (zh) | 2023-04-18 |
Family
ID=71208304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129164.XA Active CN111369572B (zh) | 2020-02-28 | 2020-02-28 | 一种基于图像修复技术的弱监督语义分割方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369572B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232355A (zh) * | 2020-12-11 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
CN112801962A (zh) * | 2021-01-19 | 2021-05-14 | 上海大学 | 基于正样本学习的半监督工业制品瑕疵检测方法及系统 |
CN113269104A (zh) * | 2021-05-28 | 2021-08-17 | 山东大学 | 群体异常行为识别方法、系统、存储介质及设备 |
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN113343883A (zh) * | 2021-06-22 | 2021-09-03 | 长光卫星技术有限公司 | 基于改进HRNetV2网络的港口矿堆分割方法 |
CN113378829A (zh) * | 2020-12-15 | 2021-09-10 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
CN114299348A (zh) * | 2022-02-21 | 2022-04-08 | 山东力聚机器人科技股份有限公司 | 一种基于修复自监督任务的图像分类方法及装置 |
CN114373106A (zh) * | 2021-12-28 | 2022-04-19 | 华南理工大学 | 基于上下文解耦和数据增强的弱监督语义分割方法及装置 |
CN114373162A (zh) * | 2021-12-21 | 2022-04-19 | 国网江苏省电力有限公司南通供电分公司 | 用于变电站视频监控的危险区域人员入侵检测方法及系统 |
WO2022160118A1 (zh) * | 2021-01-27 | 2022-08-04 | 深圳技术大学 | 基于计算机视觉特征的oct图像分类方法及系统、设备 |
CN115797631A (zh) * | 2022-12-01 | 2023-03-14 | 复亚智能科技(太仓)有限公司 | 一种不同行驶方向的道路范围1+1分割方法 |
CN116542880A (zh) * | 2023-07-05 | 2023-08-04 | 上海蜜度信息技术有限公司 | 图像自动修复方法、系统、存储介质及电子设备 |
CN116630323A (zh) * | 2023-07-25 | 2023-08-22 | 山东建筑大学 | 一种稠密金属腐蚀深度自动计算方法、系统、介质和设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
CN109063723A (zh) * | 2018-06-11 | 2018-12-21 | 清华大学 | 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 |
-
2020
- 2020-02-28 CN CN202010129164.XA patent/CN111369572B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
CN109063723A (zh) * | 2018-06-11 | 2018-12-21 | 清华大学 | 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
顾攀;张烽栋;: "基于神经网络的图像弱监督语义分割算法" * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232355A (zh) * | 2020-12-11 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
CN112232355B (zh) * | 2020-12-11 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 图像分割网络处理、图像分割方法、装置和计算机设备 |
CN113378829B (zh) * | 2020-12-15 | 2022-09-27 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
CN113378829A (zh) * | 2020-12-15 | 2021-09-10 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
CN112801962A (zh) * | 2021-01-19 | 2021-05-14 | 上海大学 | 基于正样本学习的半监督工业制品瑕疵检测方法及系统 |
CN112801962B (zh) * | 2021-01-19 | 2022-09-16 | 上海大学 | 基于正样本学习的半监督工业制品瑕疵检测方法及系统 |
WO2022160118A1 (zh) * | 2021-01-27 | 2022-08-04 | 深圳技术大学 | 基于计算机视觉特征的oct图像分类方法及系统、设备 |
CN113269104A (zh) * | 2021-05-28 | 2021-08-17 | 山东大学 | 群体异常行为识别方法、系统、存储介质及设备 |
CN113343883B (zh) * | 2021-06-22 | 2022-06-07 | 长光卫星技术股份有限公司 | 基于改进HRNetV2网络的港口矿堆分割方法 |
CN113343883A (zh) * | 2021-06-22 | 2021-09-03 | 长光卫星技术有限公司 | 基于改进HRNetV2网络的港口矿堆分割方法 |
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN113313720B (zh) * | 2021-06-30 | 2024-03-29 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN114373162A (zh) * | 2021-12-21 | 2022-04-19 | 国网江苏省电力有限公司南通供电分公司 | 用于变电站视频监控的危险区域人员入侵检测方法及系统 |
CN114373162B (zh) * | 2021-12-21 | 2023-12-26 | 国网江苏省电力有限公司南通供电分公司 | 用于变电站视频监控的危险区域人员入侵检测方法及系统 |
CN114373106A (zh) * | 2021-12-28 | 2022-04-19 | 华南理工大学 | 基于上下文解耦和数据增强的弱监督语义分割方法及装置 |
CN114299348A (zh) * | 2022-02-21 | 2022-04-08 | 山东力聚机器人科技股份有限公司 | 一种基于修复自监督任务的图像分类方法及装置 |
CN115797631B (zh) * | 2022-12-01 | 2023-12-01 | 复亚智能科技(太仓)有限公司 | 一种不同行驶方向的道路范围1+1分割方法 |
CN115797631A (zh) * | 2022-12-01 | 2023-03-14 | 复亚智能科技(太仓)有限公司 | 一种不同行驶方向的道路范围1+1分割方法 |
CN116542880A (zh) * | 2023-07-05 | 2023-08-04 | 上海蜜度信息技术有限公司 | 图像自动修复方法、系统、存储介质及电子设备 |
CN116542880B (zh) * | 2023-07-05 | 2023-10-20 | 上海蜜度信息技术有限公司 | 图像自动修复方法、系统、存储介质及电子设备 |
CN116630323B (zh) * | 2023-07-25 | 2023-09-22 | 山东建筑大学 | 一种稠密金属腐蚀深度自动计算方法、系统、介质和设备 |
CN116630323A (zh) * | 2023-07-25 | 2023-08-22 | 山东建筑大学 | 一种稠密金属腐蚀深度自动计算方法、系统、介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111369572B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369572B (zh) | 一种基于图像修复技术的弱监督语义分割方法和装置 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
Chen et al. | Learning context flexible attention model for long-term visual place recognition | |
CN108399406B (zh) | 基于深度学习的弱监督显著性物体检测的方法及系统 | |
CN110569901B (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
US8379994B2 (en) | Digital image analysis utilizing multiple human labels | |
CN112308860B (zh) | 基于自监督学习的对地观测图像语义分割方法 | |
CN110569696A (zh) | 用于车辆部件识别的神经网络系统、方法和装置 | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
Rottmann et al. | Uncertainty measures and prediction quality rating for the semantic segmentation of nested multi resolution street scene images | |
CN113096138B (zh) | 选择性像素亲和学习的弱监督语义图像分割方法 | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
CN109582960B (zh) | 基于结构化关联语义嵌入的零示例学习方法 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
Peng et al. | Semi-supervised bolt anomaly detection based on local feature reconstruction | |
CN111652265A (zh) | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 | |
Truong et al. | Domain generalization via universal non-volume preserving approach | |
Paul et al. | Iterative re-weighted instance transfer for domain adaptation | |
CN114049567B (zh) | 自适应软标签生成方法以及在高光谱图像分类中的应用 | |
US20230084761A1 (en) | Automated identification of training data candidates for perception systems | |
CN115937095A (zh) | 融合图像处理算法和深度学习的印刷缺陷检测方法及系统 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN117593890B (zh) | 一种道路遗撒物体的检测方法、装置、电子设备及存储介质 | |
Siemon et al. | A graph-based approach to video anomaly detection from the perspective of superpixels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |