CN111369572B

CN111369572B - 一种基于图像修复技术的弱监督语义分割方法和装置

Info

Publication number: CN111369572B
Application number: CN202010129164.XA
Authority: CN
Inventors: 李秀; 宋恺祥
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-04-18
Anticipated expiration: 2040-02-28
Also published as: CN111369572A

Abstract

一种基于图像修复技术的弱监督语义分割方法和装置，该方法包括如下步骤：S1、将原始图像输入到分割网络中，通过分割网络产生并输出原始图像中的物体的分割掩码；S2、对分割网络产生的分割掩码分别进行腐蚀和膨胀操作；S3、分别用经腐蚀和膨胀操作后的分割掩码对原始图像进行擦除；S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复；S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练，训练完成后，使用分割网络接收原始图像并输出预测结果。本发明可实现处理运算简化，实现了端到端的框架，可扩展性较强，且性能提升的空间大。

Description

一种基于图像修复技术的弱监督语义分割方法和装置

技术领域

本发明涉及图像识别技术，特别是一种基于图像修复技术的弱监督语义分割方法和装置。

背景技术

在计算机视觉领域，图像识别、目标检测、语义分割是经典的任务，图像识别告诉人们图像中的物体是什么，目标检测定位目标所在的位置，而语义分割则是从像素级别回答以上两个问题，在地理信息系统，自动驾驶、医疗影像辅助诊断以及智能机器人等领域具有非常广泛而重要的应用，而得到语义分割模型需要大量像素级标注的训练样本，时间成本和人力成本很高，能否用更容易获取的标签数据进行弱监督的语义分割成为众多研究者感兴趣的问题。例如使用边界框、线条、点，甚至不用位置信息标注，仅仅使用图像级别的分类标签就可以实现语义分割。本发明的任务就是在仅有像素级分类标签的情况下，实现物体的弱监督语义分割。

目前，大多数弱监督语义分割领域依旧停留在学术研究阶段，能够应用的落地场景很少。不过我们现在发现一个趋势，以CAM为代表的弱监督方法在某些应用场景下已经可以达到很好的应用效果，分类网络可以通过自上而下的方式定位出图片上的哪些区域对物体分类的贡献较大，而这些区域往往属于对应语义的物体。然而，CAM方法的主要问题在于它只能发现最具判别力的一些物体区域(比如狗的头部)，这些区域往往属于目标物体的某个部分并且分布稀疏。这同语义分割需要定位完整物体的目标并不一致。

2017年CVPR上为定位较为完整的物体，提出了一种Adversarial Erasing的方法。通过不断擦除物体上最具判别力的一些区域，使得分类网络发现更多的物体的其它区域，通过三次左右迭代获得整体的分割结果。

2018年CVPR上提出一种更简单的方式获得了更好的定位结果。物体的某个区域之所以会被定位出来，其实是因为这部分特征的判别力较强。如果这部分判别力较强的特征可以迁移到物体的其它区域，那么其它判别力较弱的区域也有可能被定位出来。这个想法可以很容易的通过加宽卷积(dilated convolution)的方式实现。

有的方法使用CAM获取最区分性的响应作为最初始的种子区域，然后通过扩张种子区域的方式使得监督逐渐变强。但是这些方法很难形成端到端的框架，而且流程较为繁琐，都需要多次扩充和更新监督信息，进行多轮训练。

发明内容

为了上述技术缺陷中的至少一种，本发明提供一种基于图像修复技术的弱监督语义分割方法和装置。

为实现上述目的，本发明采用以下技术方案：

一种基于图像修复技术的弱监督语义分割方法，包括如下步骤：

S1、将原始图像输入到分割网络中，通过所述分割网络产生并输出所述原始图像中的物体的分割掩码；

S2、对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作；

S3、分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除；

S4、使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复，输出修复后的两张图像；

S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练；其中，分类网络与修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果。

进一步地：

步骤S5中，对于经腐蚀操作后擦除和修复的图像，送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失函数进行约束，；对于经膨胀操作后擦除和修复的图像，送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失的相反数进行约束。

所述分割网络和/或所述分类网络和/或所述图像修复网络在PascalVOC2012掩码数据集上训练。

分割网络的训练具体包括：在数据集上用经过预训练的分类网络生成CAM，尤其是，通过使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM，通过设定阈值将显著性区域转换为分割种子掩码，每张图像与该图像中每个类别的种子掩码形成图像-种子掩码样本对，称之为掩码数据集，用于分割网络的预训练。

分类网络的训练具体包括：采用擦除-填充策略对图像进行预处理，使用每一张图片对应的种子掩码擦除该图像，然后使用图像修复网络进行填充，将该填充后的图像输入到分类网络中进行训练。

图像修复网络的训练具体包括：预训练所使用的擦除块为随机多边形，且尺度范围随机产生并且有一定的变化。

步骤S1中，所述分割网络通过softargmax的方式在通道维度上处理分割模型的输出特征图，使得获取掩码过程可导，便于梯度回传。

步骤S2中，所述腐蚀和膨胀操作通过可以传递梯度的卷积层实现。

一种基于图像修复技术的弱监督语义分割装置，包括：

分割模块，其将原始图像输入到分割网络中，通过所述分割网络产生并输出所述原始图像中的物体的分割掩码；

形态学变换模块，其对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作；

擦除模块，其分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除；

图像修复模块，其使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复，输出修复后的两张图像；

分类模块，其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练；其中，分类网络与修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果。

一种基于图像修复技术的弱监督语义分割装置，其特征在于，包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现所述的图像修复技术的弱监督语义分割方法。

本发明具有如下有益效果：

本发明与传统的全监督语义分割任务相比，大大节省了标记开销，与普通的弱监督语义分割方法相比，本发明将弱监督语义分割任务集成在一个端到端的学习模型中，这里端到端指的是从输入图像到损失函数的全部计算过程均使用可导的操作或网络。图像修复网络可以扩展初始种子区域，通过引入形态学变换和相互制约的两个损失约束寻找物体边界，利用了所有可以用到的分类信息，且分割网络的训练过程只需要一轮迭代即可完成。而且，本发明扩展性较强，且性能提升的空间很大，通过采用具有相似功能的性能更好的网络，可以提高整体的预测准确率。

附图说明

图1为ImageNet上原始图像、原始图像叠加CAM以及原始图像叠加种子掩码的示例图。

图2示出形态学变化及擦除、修复操作对分类结果的影响。

图3为本发明一种实施例的基于形态学变换和图像修复技术的弱监督语义分割方法的流程图，其中也体现了本发明设计的弱监督语义分割框架。

具体实施方式

以下对本发明的实施方式作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明的关键思想在于：

1)设计了一种基于形态学变换和图像修复技术的弱监督语义分割框架，通过擦除和修复的方式扩大种子区域，通过形态学变换和相互制约的损失函数约束模型的训练。

2)继承了生成初始种子区域然后向周围扩展的弱监督语义分割方法，将分割网络训练的整个流程集成在一个端到端的框架中，这里端到端指的是从输入图像到损失函数的全部计算过程均使用可导的操作或网络，通过一轮训练获得分割模型。

不同于以往的方法，本发明实施例基于图像修复技术的弱监督语义分割方法中将CAM定位出来的区域擦除，将擦除后的图像送到预训练的分类网络中，使用分类信息约束分割网络训练。

弱监督语义分割任务中所使用的标签只有分类标签作为监督信息，本发明通过引入图像修复网络和分类网络辅助分割网络的训练，且过程中采用了腐蚀和膨胀的形态学操作约束物体边界。

本发明中通过引入补全网络设计端到端的框架，将擦除与修复集成到一个框架当中，只需要进行一轮训练即可获得分割模型。且本发明中的框架由各个可替换的组件构成，例如分割网络和图像修复网络，可以替换成具有相似功能的性能更好的网络，所以性能提升的空间很大。本发明将图像修复技术引入到弱监督语义分割任务中，模拟了人理解现实世界的思路，相对于仅仅使用分类标签的数据集实现语义分割任务提高了预测准确率。

参阅图3，本发明实施例提出一种基于形态学变换和图像修复技术的弱监督语义分割方法，包括如下步骤：

将原始图像输入到分割网络中，通过所述分割网络产生并输出所述原始图像中的物体的分割掩码；

对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作；

分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除；

使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复，输出修复后的两张图像；

使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练；其中，分类网络与修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果。

本发明实施例还提出一种基于形态学变换和图像修复技术的弱监督语义分割装置包括：

分割模块，其将原始图像输入到分割网络中，通过所述分割网络产生并输出所述原始图像中的物体的分割掩码，该模块需要经过预训练，所使用的数据集中的图像即为整体训练所使用数据集的图像，标签由CAM产生；

形态学变换模块，其对所述分割网络产生的所述分割掩码分别进行腐蚀和膨胀操作，该模块无需预训练；

擦除模块，其分别用经腐蚀和膨胀操作后的分割掩码对所述原始图像进行擦除，该模块无需预训练；

图像修复模块，其使用孪生的图像修复网络对经擦除的两张原始图像分别进行修复，输出修复后的两张图像，该模块需要预训练，预训练过程需要自行准备数据集，数据集中的图像与整体训练所使用的数据集中的图像保持一致，标签通过随机图像块擦除图像产生；

分类模块，其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练；分类网络与修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果，该模块需要进行预训练，预训练所使用的数据集的图像和标签与整体训练所使用的数据集保持一致。

以下结合附图进一步描述本发明具体实施例的特征和优点。

1)CAM

在某个数据集上经过预训练的分类网络可以用来生成CAM，CAM可以使物体的显著性区域凸显出来，通过一定阈值将显著性区域划分出来，得到对该物体的分割掩码种子区域，如图1所示为ImageNet上获得的CAM和分割掩码，对于每张图片上每一类物体都可以获得一个掩码，可以标记出物体的显著性区域，即分类网络依据图像的那一部分将该图片划分为该类别。

CAM生成的种子掩码经常可以作为初始掩码，经过各种掩码扩展策略，达到寻找整个物体掩码的效果。

2)基本思路

本发明基于形态学变换和图像修复网络进行弱监督语义分割。弱监督语义分割任务中所使用的标签只有分类标签作为监督信息，本发明通过引入图像修复网络和分类网络辅助分割网络的训练，且过程中采用了腐蚀和膨胀的形态学操作约束物体边界。

如图2所示，测试图片是ImageNet数据集中的一只鹅，对理想情况下鹅的分割掩码分别进行腐蚀和膨胀操作，然后使用生成的两个新掩码擦除测试图像，再分别对测试图像进行补全。每张图像右上角表示送入分类网络后被分成黑天鹅的概率。可以看到腐蚀、擦除和修复操作的结果图会使网络能够成功分类出黑天鹅这一类别，属于鹅的概率为0.64435，而膨胀、擦除和修复操作后的结果图则会使得分类为鹅的正确率为0.00012。而如果原始掩码不是理想掩码，则难以出现这种情况，因此，我们希望腐蚀处理尽可能减小分错的概率，而膨胀操作尽可能减小分对的概率，基于此，我们构建了本发明中的模型。

3)模型结构设计

基于上述分析，本发明实施例设计了图3所示的框架。本发明实施例的结构主要由以下几个模块组成：

1.分割网络。该分割网络可以使用DeepLabV3+或HRNet等网络结构，对于输入的图像(原始图像)，首先输入到分割网络中，网络会输出对图中物体的定位区域(分割掩码)，该网络需要使用图像-CAM掩码对进行预训练。这里通过softargmax的方式处理分割网络输出的特征图，使得获取掩码过程可导，便于梯度回传；

2.形态学变换模块。对分割网络产生的分割掩码分别进行腐蚀和膨胀操作，再用分别用腐蚀和膨胀后的分割掩码擦除原始图像。这里的腐蚀和膨胀通过可以传递梯度的卷积层实现；

3.图像修复模块。使用孪生的图像修复网络对两张擦除的原始图像进行修复，修复网络输出两张修复后的图像；

4.分类模块。这里的分类网络可以选择resnet等类型，将修复后的两张图像送进在ImageNet中经过预训练的孪生的分类网络中进行分类，可以获得两张图像属于各个类别的可能性向量。

5.损失函数。这里使用两个损失函数，对于经过掩码腐蚀、擦除原图、修复后的图像，我们希望网络尽可能可以分类出来修复后的图像，即对该图像所属实际类别的预测准确率尽可能高，因此使用普通网络的softmax损失约束，即使用真实标签的one-hot编码约束网络输出概率向量；对于经过掩码膨胀、擦除和修复后的图像，我们希望网络尽可能分辨不出图像中的物体，即对每一个类别的预测可能性尽可能一致，因此使用MSE等损失约束，使得每个类别的可能性尽可能相等，以1000类ImageNet为例，标签即为每一个值都为0.001的1000维向量。

4)训练流程

我们以PascalVOC2012为训练和测试数据集进行说明，该数据集是一个既有分类标签又有分割标签的数据集，但是我们只使用分类标签作为唯一监督信息，数据集中涵盖有20类物体，每张图像上有一种或多种物体。使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM，通过一定阈值将显著性区域转换为分割种子掩码，形成一系列图像-种子掩码样本对，称之为掩码数据集。

1.预训练模型。

分割网络是训练过程的最终产物，需要在PascalVOC2012掩码数据集上训练分割网络，使得模型获得初始效果。

分类网络需要在PascalVOC2012上进行预训练，为了增加鲁棒性，这里采用擦除-填充策略对图像进行预处理，使用每一张图片对应的种子掩码擦除该图像，然后使用图像修复网络进行填充，将该填充后的图像输入到分类网络中进行训练。

图像修复网络也需要在PascalVOC2012上进行预训练，所使用的擦除块为随机多边形，且尺度范围随机产生且有一定的变化。

2.训练过程。在训练过程中，图像修复网络和分类网络的参数不再更新，只有分割网络的参数保持更新。

3.测试过程：分割网络训练完成后，使用该分割网络对图像进行预测。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种基于图像修复技术的弱监督语义分割方法，其特征在于，包括如下步骤：

S5、使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练；其中，分类网络与图像修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果。

2.如权利要求1所述的基于图像修复技术的弱监督语义分割方法，其特征在于，步骤S5中，对于经腐蚀操作后擦除和修复的图像，送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失函数进行约束；对于经膨胀操作后擦除和修复的图像，送入分类网络后得到的可能性向量与真实标签的one-hot编码使用交叉熵损失的相反数进行约束。

3.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法，其特征在于，所述分割网络、所述分类网络、所述图像修复网络在PascalVOC2012掩码数据集上训练。

4.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法，其特征在于，分割网络的训练具体包括：在数据集上用经过预训练的分类网络生成CAM，其中，通过使用PascalVOC2012训练分类网络并生成每张图片上每一类的CAM，通过设定阈值将显著性区域转换为分割种子掩码，每张图像与该图像中每个类别的种子掩码形成图像-种子掩码样本对，所形成的一系列图像-种子掩码样本对称之为掩码数据集，用于分割网络的预训练。

5.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法，其特征在于，分类网络的训练具体包括：采用擦除-填充策略对图像进行预处理，使用每一张图片对应的种子掩码擦除该图像，然后使用图像修复网络进行填充，将填充后的图像输入到分类网络中进行训练。

6.如权利要求1或2所述的基于图像修复技术的弱监督语义分割方法，其特征在于，图像修复网络的训练具体包括：预训练所使用的擦除块为随机多边形，且尺度范围随机产生并且有变化。

7.如权利要求1至2任一项所述的基于图像修复技术的弱监督语义分割方法，其特征在于，步骤S1中，所述分割网络通过softargmax的方式在通道维度上处理分割模型的输出特征图，使得获取掩码过程可导，便于梯度回传。

8.如权利要求1至2任一项所述的基于图像修复技术的弱监督语义分割方法，其特征在于，步骤S2中，所述腐蚀和膨胀操作通过可以传递梯度的卷积层实现。

9.一种基于图像修复技术的弱监督语义分割装置，其特征在于，包括：

分类模块，其使用经过预训练的孪生的分类网络将修复后的两张图像分别进行分类，获得两张图像属于各个类别的可能性向量，使用不同的损失函数约束训练，其中，分类网络与图像修复网络经过预训练且模型参数在训练过程中固定，仅分割网络参数更新，训练完成后，使用分割网络接收原始图像并输出预测结果。

10.一种基于图像修复技术的弱监督语义分割装置，其特征在于，其特征在于，包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现如权利要求1至8中任一项所述的图像修复技术的弱监督语义分割方法。