CN116309653B

CN116309653B - 弱监督图像语义分割方法、系统、设备及存储介质

Info

Publication number: CN116309653B
Application number: CN202310560357.4A
Authority: CN
Inventors: 王子磊; 容圣海
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-08-29
Anticipated expiration: 2043-05-18
Also published as: CN116309653A

Abstract

本发明公开了一种弱监督图像语义分割方法、系统、设备及存储介质，它们是一一对应的方案，方案中：通过训练一个孪生网络，对图像的不确定像素进行网络间的交互监督，以实现网络对不确定像素的鲁棒学习，减缓伪标签噪声的影响；同时针对边界噪声的问题，通过构造一些边界已知的样本来增强边缘区域的预测能力；综上，本发明通过结合提出的边界增强和协同训练方式，有效减缓了伪标签噪声的影响，提高了网络的语义分割性能，能够更为准确的实现图像的语义分割。

Description

弱监督图像语义分割方法、系统、设备及存储介质

技术领域

本发明涉及图像语义分割技术领域，尤其涉及一种弱监督图像语义分割方法、系统、设备及存储介质。

背景技术

语义分割是计算机视觉中的一项基本任务，当前基于深度学习的方法在图像语义分割方面取得了巨大的成功。然而，这些均为全监督的方法，需要逐像素的标注，极为耗时耗力。为了减轻对像素级标签的高度依赖，许多研究人员致力于开发具有弱标签形式的弱监督语义分割模型，例如使用显著图像、涂鸦、点、边界框和图像级标注的弱标签（图像级标签）形式作为分割模型的监督。特别地，图像级标签仅表示图像中某些类别的存在，在弱监督中最容易获得，因此，图像级标签监督的语义分割（简称图像级监督的语义分割）更具挑战性以及研究价值。

图像级监督的语义分割是指仅利用图像级标签来执行像素级分类。该任务通常涉及两个训练阶段。在第一阶段，使用图像标签训练分类模型，用于生成类激活图，然后作为种子区域进一步扩展成伪标签。在第二阶段，生成的伪标签作为像素级的真实监督去训练语义分割模型。在公开号为CN114359559A的中国发明专利申请《基于注意力机制图像块度量学习的弱监督语义分割方法》中，基于类激活图像提取正、负样本对，为分类网络增加度量学习任务，以在训练过程中提高网络对同一个类别正图像块的响应,降低对背景和其它噪声类别图像块的响应，从而提高种子区域精度。在公开号为CN115393598A的中国发明专利申请《一种基于非显著区域对象挖掘的弱监督语义分割方法》中，引入了一个基于图推理的多尺度特征融合模块来帮助分类网络捕获不连续和远距离区域之间的全局关系, 然后采用潜在对象挖掘和非显著区域掩码,以提高伪标签质量。在公开号为CN115482387A的中国发明专利申请《基于多尺度类别原型的弱监督图像语义分割方法及系统》中，通过使用类别原型机制，从图像特征图中发掘类别的位置和语义，准确推断对象的语义信息和像素位置。提取语义信息后，采用多尺度原型融合不同粒度级别的语义信息，大大提高了弱监督前置分类任务对目标的定位能力。在公开号为基于类间相似性的弱监督语义分割方法的中国发明专利申请《基于类间相似性的弱监督语义分割方法》中，提出基于每个类别的特征通过聚类方法将相似类进行合并得到新类，然后对新类别的分类网络进行对抗擦除的训练，以得到更完整的类激活图。然而上述的方法都关注于弱监督语义分割的第一阶段，而忽略了第二阶段的重要性。研究发现，第一阶段中更好的伪标签质量并不能保证训练出性能更好的语义分割模型，从而导致语义分割结果的准确性不佳。

发明内容

本发明的目的是提供一种弱监督图像语义分割方法、系统、设备及存储介质，可以减缓伪标签噪声的影响，提升语义分割的效果。

本发明的目的是通过以下技术方案实现的：

一种弱监督图像语义分割方法，包括：

获取图像数据集中每一图像的分数图，利用每一图像的分数图生成对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码，将图像数据集中的单个图像、对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码称为一个边界未知样本；

构建协同训练的用于语义分割的孪生网络，将图像数据集中单个图像分别输入至孪生网络，将孪生网络的预测结果融合，生成融合伪标签与指示相应融合伪标签不确定度的融合掩码，并利用图像数据集中任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码构造一个边界已知的样本；

利用若干边界未知样本与构造的若干边界已知的样本形成训练集，利用所述训练集训练孪生网络；训练过程中，对于每一样本，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络；其中，所述每一样本包括边界未知样本与边界已知的样本，掩码包括边界未知样本中的离线掩码与边界已知的样本中的掩码，伪标签包括边界未知样本中的离线伪标签与边界已知的样本中的伪标签；

利用训练后的孪生网络对输入图像进行语义分割。

一种弱监督图像语义分割系统，包括：

离线伪标与离线掩码生成单元，用于获取图像数据集中每一图像的分数图，利用每一图像的分数图生成对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码，将图像数据集中的单个图像、对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码称为一个边界未知样本；

孪生网络构建与边界已知的样本构造单元，用于构建协同训练的用于语义分割的孪生网络，将图像数据集中单个图像分别输入至孪生网络，将孪生网络的预测结果混合，生成融合伪标签与指示相应融合伪标签不确定度的融合掩码，并利用图像数据集中任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码构造一个边界已知的样本；

孪生网络训练单元，用于利用若干边界未知样本与构造的若干边界已知的样本形成训练集，利用所述训练集训练孪生网络；训练过程中，对于每一样本，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络；其中，所述每一样本包括边界未知样本与边界已知的样本，掩码包括边界未知样本中的离线掩码与边界已知的样本中的掩码，伪标签包括边界未知样本中的离线伪标签与边界已知的样本中的伪标签；

语义分割单元，用于利用训练后的孪生网络对输入图像进行语义分割。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过训练一个孪生网络，对图像的不确定像素进行网络间的交互监督，以实现网络对不确定像素的鲁棒学习，减缓伪标签噪声的影响；同时针对边界噪声的问题，通过构造一些边界已知的样本来增强边缘区域的预测能力；综上，本发明通过结合提出的边界增强和协同训练方式，有效减缓了伪标签噪声的影响，提高了网络的语义分割性能，能够更为准确的实现图像的语义分割。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种弱监督图像语义分割方法的流程图；

图2为本发明实施例提供的伪标签质量与语义分割模型性能不一致示意图；

图3为本发明实施例提供的边界增强协同训练的整体框架示意图；

图4为本发明实施例提供的边界构造策略示意图；

图5为本发明实施例提供的一种弱监督图像语义分割系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种弱监督图像语义分割方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种弱监督图像语义分割方法，如图1所示，其主要包括如下步骤：

步骤1、生成每个图像的离线伪标签与离线掩码，形成边界未知样本。

本发明实施例中，通过获取图像数据集中每一图像的分数图，利用每一图像的分数图生成对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码，将图像数据集中的单个图像、对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码称为一个边界未知样本。

本步骤的优选实施方式如下：

（1）获取包含图像级标签的图像数据集，并利用图像数据集训练分类网络。

（2）利用训练后的分类网络生成图像数据集中每一图像样本的种子区域，再通过现有的语义分割方法（例如，弱监督语义分割方法）得到每一图像样本的分数图，分数图表示预测的相应图像样本中每个像素的在每一类别上的分数。

（3）对分数图进行argmax操作，生成每一图像样本对应的离线伪标签。

本领域技术人员可以理解，argmax是一个通用的数学函数，表示取最大值对应的元素。在本发明中，表示选择每一图像样本的分数图中每个像素最高分数对应的类别。

（4）根据每一图像样本的分数图生成指示相应离线伪标签不确定度的离线掩码，具体的：计算每一图像样本的分数图中每个像素最高分数和第二高分数的差值，将差值最大的一部分像素记为第一置信度像素，将剩余部分像素记为第二置信度像素，生成指示相应离线伪标签不确定度的离线掩码；其中，第一置信度（可称之为高置信度）高于第二置信度（可以称之为低置信度），第一置信度像素的掩码值为1，第二置信度像素的掩码值为0。

上述步骤（3）与步骤（4）不区分执行的先后顺序。

步骤2、构建协同训练的孪生网络，并构造边界已知的样本。

本发明实施例中，构造的孪生网络是两个结构相同但参数不共享且初始化不同的并行深度网络，具体深度网络可使用现有的用于语义分割的网络实现。

为了增强网络对困难的边界区域的预测能力，引入边界增强策略构造边界已知的样本，具体的：将图像数据集中单个图像分别输入至孪生网络，将孪生网络的预测结果混合，生成融合伪标签与指示相应融合伪标签不确定度的融合掩码，并利用图像数据集中任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码构造一个边界已知的样本。

步骤3、利用边界未知样本与构造的边界已知的样本形成训练集，利用所述训练集训练孪生网络。

本发明实施例中，利用若干边界未知样本与构造的若干边界已知的样本形成训练集，两类样本的比例可根据实际情况设定，例如，设置为1：1。

本发明实施例中，训练过程中，对于每一样本，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性（即对预测结果施加一致性），以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络。其中，所述每一样本包括边界未知样本与边界已知的样本，掩码包括边界未知样本中的离线掩码与边界已知的样本中的掩码（混合掩码），伪标签包括边界未知样本中的离线伪标签与边界已知的样本中的伪标签（混合伪标签），关于边界已知的样本的掩码与伪标签将在后文进行介绍。

步骤4、利用训练后的孪生网络对输入图像进行语义分割。

本发明实施例中，通过孪生网络可以获得对输入图像的两部分预测结果，即孪生网络中每一网络单独输出的预测结果，之后，将两部分预测结果融合（例如，计算平均值），获得融合后的预测结果，然后，执行argmax操作得到输入图像的像素级分类结果，即语义分割图。

本发明实施例上述方案，主要关注图像级监督的语义分割的第二阶段（详见背景技术的介绍），解决第二阶段中的主要挑战，即伪标签噪声问题。并提出了边界增强的协同训练方法来训练语义分割模型，通过使用两个交互式网络（即前述的孪生网络）的协同训练范式来改进不确定像素的学习，以及通过一种边界增强策略来增强网络对困难边界区域的预测，最终增强网络的噪声鲁棒性和提升网络的语义分割性能。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、原理概述。

本发明主要关注于图像级监督的语义分割任务，该任务通常涉及两个训练阶段。在第一阶段，使用包含图像级标签的图像数据集训练分类模型，用于生成类激活图，然后作为种子区域进一步扩展成伪标签。在第二阶段，生成的伪标签作为像素级的真实监督去训练语义分割模型。如图2所示，研究发现第一阶段生成的伪标签质量和第二阶段语义分割方法的性能存在不一致性，即更好的伪标签质量无法保证得到性能更好的分割模型；图2中为各类语义分割方法在VOC2012数据集上的性能比较，圆形节点的线条表示伪标签质量，矩形节点线条表示分割模型的质量。SEAM（Self-supervised Equivariant AttentionMechanism）为自监督等变注意机制模型，IRN（Inter-pixel Relation Network）为像素间关系网络模型，EDAM（Embedded Discriminative Attention Mechanism）为嵌入式判别注意机制模型，RIB（Reducing Information Bottleneck）为减少信息瓶颈模型，EPS（Explicit Pseudo-pixel Supervision）为显式伪像素监督模型，AMN（ActivationManipulation Network）为激活操纵网络模型，PPC（Pixel-to-Prototype Contrast）为像素与原型对比网络模型。为了解决以上问题，本发明着重关注第二阶段的噪声鲁棒学习。为此本发明通过协同训练和边界增强策略在训练中减缓伪标签噪声的影响，提高网络的鲁棒性和识别能力。

下面先针对第一阶段的伪标签生成过程进行介绍，之后，再针对本发明提供的协同训练和边界增强策略对第二个阶段进行介绍。

给定图像数据集以及对应的图像级标签，训练分类网络。然后使用训练好的分类网络为每张图像生成类别激活响应图（CAM），作为种子区域。之后，使用现有的弱监督语义分割方法扩展种子区域，得到每张图像的分数图。该分数图表示图像中每个像素的预测的每个类别分数。再选择每个像素预测的最大分数对应的类别得到图像的语义分割伪标签。除了获得离线伪标签，本发明进一步地提取分数图的信息来获得指示离线伪标签不确定度的离线掩码，以应用于本发明提供的第二阶段的训练中。具体地，本发明首先计算分数图中每个像素的类别最高分数和第二高分数的差值，然后选择伪标签预测的每个类别中差值最大的一部分像素（例如差值最大的前50%的像素）视为高置信度像素（即第一置信度像素），否则视作低置信度像素（第二置信度像素），由此得到指示离线伪标签不确定度的离线掩码，该离线掩码中第一置信度像素的掩码值为1，第二置信度像素的掩码值为0。

二、第二阶段训练。

经过第一阶段得到离线伪标签和离线掩码后，接下来介绍本发明提出的协同训练范式，边界增强策略，以及结合两者的边界增强协同训练，以上为第二阶段的训练，整体框架如图3所示。

1、协同训练范式。

本发明实施例中，构造两个结构相同但参数不共享且初始化不同的并行深度网络，即图3中的和/>，二者称为孪生网络。将图像/>同时输入到两个网络，分别得到预测结果/>和/>。此外，还给每个网络输出的最后特征添加一个卷积层，用来预测网络的预测结果的不确定度/>和/>，用于后续的协同训练损失计算。然后对/>和/>分别执行argmax操作生成在线伪标签/>和/>。传统的弱监督语义分割第二阶段利用离线伪标签Y来最小化交叉熵损失来训练网络。然而具有噪声的伪标签会造成网络的错误累积，不利于网络的泛化。

本发明提出的协同训练范式通过在两个网络对不确定像素的预测上施加一致性约束来解决这个问题。具体地，将低置信度（即，掩码值）像素伪标签视作不确定的标签，剩下的/>的像素伪标签视为高置信伪标签。对于高置信度像素，本发明采用第一阶段的离线伪标签Y进行监督，对于低置信的像素，本发明采用另一个网络预测的在线伪标签进行监督。进一步地，本发明使用每个网络预测的不确定度的指数形式/>和/>对交互监督的损失进行加权，即基于当前网络的预测结果的不确定度控制来自另一个网络预测的在线伪标签的监督程度。每个网络的协同训练（COT）损失公式分别如下所示：

；

其中，L_CE为交叉熵损失，N表示训练集中样本数目，H与W为图像的高度与宽度，、对应的表示图像/>中像素j处的离线伪标签值、离线掩码值，此处的图像/>属于边界未知样本，具体将在后文进行说明；/>为孪生网络中第一个网络针对图像/>中像素j的预测结果，/>为孪生网络中第二个网络针对图像/>中像素j的预测结果；e为自然常数，/>为根据预测结果/>生成的在线伪标签值，/>为孪生网络中第一个网络针对图像/>中像素j的预测的不确定度，/>为根据预测结果/>生成的在线伪标签值，/>为孪生网络中第二个网络针对图像/>中像素j的预测的不确定度；当/>时，计算的是/>与/>，当/>时，计算/>与/>，/>表示图像/>中像素j为第一置信度像素（即），/>表示图像/>中像素j为第二置信度像素。

2、边界增强策略。

为了增强网络对困难的边界区域的预测能力，本发明通过为协同训练损失分配更大的权重来突出边界的预测。在介绍边界增强方法之前，本发明阐述边界构建策略，旨在获得具有准确标签的边界像素。该策略是将一幅图像中的高置信度区域复制粘贴到另一幅图像中。具体地，将单个图像分别输入至孪生网络，获得孪生网络的预测结果，记为/>和/>；将孪生网络的预测结果/>和/>融合，获得融合预测结果/>；对融合预测结果/>执行argmax操作生成融合伪标签/>，对于融合伪标签/>中每个像素，如果类别对应融合预测结果中的概率大于设定的阈值/>，则记为第一置信度像素，否则记为第二置信度像素，生成指示相应融合伪标签不确定度的融合掩码/>；其中，第一置信度高于第二置信度，第一置信度像素的掩码值为1，第二置信度像素的掩码值为0。

之后，将任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码记为和/>；其中，/>与/>表示任意两个图像，/>与/>为图像对应的融合伪标签与指示相应融合伪标签不确定度的融合掩码，/>与/>为图像/>对应的融合伪标签与指示相应融合伪标签不确定度的融合掩码。

随机选择融合伪标签中一半的类别获得类别掩码/>，并过滤第二置信度像素，获得第一置信度像素的类别掩码/>：

；

其中，表示逐元素乘操作，类别掩码/>中所选择类别对应像素的掩码值为1，剩余像素的掩码值为0。

示例性的：假设一张图像中有人和马两个类别，融合伪标签中将属于人的像素标记为人这一类，将属于马的像素标记为马这一类，选择一半数量的类别，例如，本示例中包含两个类别，因此，选择一个类别，假如选择人这一类别，则将融合伪标签中属于人这一类别的像素的掩码值为1，剩余像素的掩码值为0，从而得到类别掩码。当然，如果只有一个类别，则仅选择一个类别。

然后，构造混合图像、混合伪标签、混合掩码与边界图，形成一个边界已知的样本：

；

其中，表示混合图像，/>表示边界已知的样本中的伪标签，即混合伪标签，/>表示边界已知的样本中的掩码，即混合掩码；/>表示边界图，通过第一置信度像素的类别掩码得到，具体的：对第一置信度像素的类别掩码/>分别进行膨胀（Dilation）和腐蚀（Erosion）操作，对两个操作结果作差值得到二值的边界图/>，其中/>表示构造的边界像素。

图4呈现了边界构造策略示意图，其中图像1与图像2表示任意两个图像，伪标签1与伪标签2对应为图像1与图像2的融合伪标签，掩码1与掩码2应为图像1与图像2的融合掩码。

3、边界增强协同训练。

基于前述第1~第2两部分的原理介绍，下面详细介绍结合二者实现边界增强协同训练的方案。本发明实施例中，对于每一样本，根据掩码指示的不确定度对伪标签施加一致性约束结合孪生网络的预测结果计算协同训练损失，以及基于样本包含或未包含的边界信息计算边界增强协同损失，利用协同训练损失与边界增强协同损失训练孪生网络。

本发明实施例中，对每批次的边界未知样本经过边界构造后得到边界已知的样本，在不产生歧义的情况下为了简洁表达，统一将上述两种样本表达为(X,Y,M,B)。具体来说：训练集中的样本包含边界未知样本与边界已知的样本，对于样本(X,Y,M,B)，如果为边界未知样本，则X表示图像数据集中的一个图像，Y表示图像X对应的离线伪标签，M表示指示相应离线伪标签不确定度的离线掩码；如果为边界已知的样本，则X为构造出的混合图像/>，Y为混合图像X对应的混合伪标签/>，M为指示相应混合伪标签不确定度的混合掩码/>；B表示边界图，对于边界未知样本边界图为全0矩阵，对于边界已知的样本，B为构造边界已知的样本时生成的边界图/>；经过上述统一后，图像/>表示图像数据集中的一个图像或者一个混合图像，/>表示图像/>中像素j处的离线伪标签值（对于边界未知样本）或混合伪标签值（对于边界已知的样本），/>表示图像/>中像素j处的离线掩码值（对于边界未知样本）或混合掩码值（对于边界已知的样本）。

本发明实施例中，将训练集输入至孪生网络，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，将孪生网络中第一个网络的协同训练损失记为，将孪生网络中第二个网络的协同训练损失记为/>；同时，基于样本包含或未包含的边界信息计算边界增强损失，具体的：为了进一步改进模型对边界区域的预测，根据边界图重新加权协同训练损失，即为边界处的像素分配更大的权重，由于边界图 B是从高置信度类掩码生成的，因此 B 仅影响高置信度像素。最终，孪生网络每一网络的损失为协同训练损失与边界增强损失之和（称为边界增强协同训练损失），表示为：

；

其中，表示孪生网络中第一个网络的损失，/>表示孪生网络中第二个网络的损失，以上两个损失的公式中第二项为相应网络的边界增强损失，/>为权重（用来控制损失在边界上的强度）；L_CE为交叉熵损失；N表示训练集中样本数目，H与W为图像的高度与宽度，/>表示图像/>中像素j处的边界值；/>为孪生网络中第一个网络针对图像/>中像素j的预测结果，/>为孪生网络中第二个网络针对图像/>中像素j的预测结果。

构造边界增强的协同训练损失，训练所述孪生网络：

；

其中，L_BECO表示边界增强的协同训练损失。

图3所示的整体框架中以边界已知的样本为例介绍了相关训练流程，实际上边界未知样本边界也是采用相同的流程。图3中实线箭头表示前向传播，虚线箭头表示反向传播，argmax表示argmax操作，Rev表示反向操作，对应于；mean表示求均值操作，对应于/>公式中的第二项；同时，图3中的预测结果与在线伪标签均省略了下标符号。

本发明实施例提供的上述方案主要具有如下优点：首先本发明提出的协同训练范式通过在两个网络对不确定像素的预测上施加在线的一致性约束，能有效减缓网络对弱监督语义分割第一阶段生成的噪声伪标签的影响。相比之前的关注于生成更好伪标签的方法，本发明能直接改善最终模型的鲁棒性和分割性能。其次，本发明提出的边界增强策略，通过复制图像高置信的区域粘贴到另一张图像来巧妙构造出带有准确标签的边界已知图像，将该策略生成的边界已知图像用于网络的协同训练中，进一步地缓解了边界噪声的影响，增强了网络在边界区域识别能力。综上，本发明通过结合提出的边界增强策略和协同训练方式，有效减缓了伪标签噪声的影响，提高了语义分割的性能。

下面结合一个示例对本发明提供的上述方案做举例说明。

步骤S1、准备仅包含图像级标签的图像数据集。通过双线性插值的方式改变图像的空间大小，使得图像高和宽均为512，然后进行图像归一化处理。

步骤S2、在弱监督语义分割的第一阶段，使用该图像数据集训练主流的分类网络ResNet50，然后生成类激活图作为种子区域，接着使用现有的弱监督语义分割方法，如IRN，扩展种子区域得到具有像素级预测的离线伪标签。同时选择离线伪标签预测的每个类别中差值最大的前50%的像素视为高置信，否则视作低置信，由此得到离线的置信掩码。

步骤S3、如图3所示，整体网络框架是结构相同，但参数不共享的两个并行网络和/>，本发明使用主流的语义分割网络DeeplabV3Plus，其中的骨干网络使用ResNet101网络。在训练的起始阶段，对这两个网络进行不同的初始化。

步骤S4、对于给定图像以及第一阶段生成的离线伪标签和置信掩码，根据本发明提出的边界构造策略生成边界已知的样本，如图4所示。

步骤S5、在每个训练迭代中，将原始图像样本（即边界未知的样本）和边界已知样本以1：1的比例得到每批次训练样本，本发明使用的每批次训练样本数为16。然后将每批次训练图像经过随机图像翻转，裁剪等操作后得到空间大小为512×512的增强后图像，输入到孪生网络中。本发明使用提出的边界增强的协同训练损失L_BECO来训练该孪生网络，一共训练80epochs（轮次）。

步骤S6、在进行语义分割预测时，输入测试图像至训练好的孪生网络，得到两个网络的预测概率，然后对预测概率计算平均值得到集成后的预测概率，接着执行argmax操作得到测试图像的像素级分类结果，即语义分割图。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种弱监督图像语义分割系统，其主要基于前述实施例提供的方法实现，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种弱监督图像语义分割方法，其特征在于，包括：

利用若干边界未知样本与构造的若干边界已知的样本形成训练集，利用所述训练集训练孪生网络；训练过程中，对于每一样本，根据相应掩码指示的不确定度和相应伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络；其中，所述每一样本包括边界未知样本与边界已知的样本，掩码包括边界未知样本中的离线掩码与边界已知的样本中的掩码，伪标签包括边界未知样本中的离线伪标签与边界已知的样本中的伪标签；

利用训练后的孪生网络对输入图像进行语义分割。

2.根据权利要求1所述的一种弱监督图像语义分割方法，其特征在于，所述获取图像数据集中每一图像的分数图，利用每一图像的分数图生成对应的离线伪标签与指示相应离线伪标签不确定度的离线掩码包括：

获取包含图像级标签的图像数据集，并利用图像数据集训练分类网络；

利用训练后的分类网络生成图像数据集中每一图像样本的种子区域，再通过语义分割方法得到每一图像样本的分数图，分数图表示预测的相应图像样本中每个像素的在每一类别上的分数；

对分数图进行argmax操作，生成每一图像样本对应的离线伪标签，其中，argmax表示取最大值对应的元素；同时，根据每一图像样本的分数图生成指示相应离线伪标签不确定度的离线掩码。

3.根据权利要求1或2所述的一种弱监督图像语义分割方法，其特征在于，生成指示相应离线伪标签不确定度的离线掩码的方式包括：

计算每一图像样本的分数图中每个像素最高分数和第二高分数的差值，将差值最大的一部分像素记为第一置信度像素，将剩余部分像素记为第二置信度像素，生成指示相应离线伪标签不确定度的离线掩码；其中，第一置信度高于第二置信度，第一置信度像素的掩码值为1，第二置信度像素的掩码值为0。

4.根据权利要求1所述的一种弱监督图像语义分割方法，其特征在于，所述将图像数据集中单个图像分别输入至孪生网络，将孪生网络的预测结果融合，生成融合伪标签与指示相应融合伪标签不确定度的融合掩码包括：

将单个图像分别输入至孪生网络，获得孪生网络的预测结果，记为/>和/>；将孪生网络的预测结果/>和/>融合，获得融合预测结果/>；

对融合预测结果执行argmax操作生成融合伪标签/>，对于融合伪标签/>中每个像素，如果类别对应融合预测结果/>中的概率大于设定的阈值，则记为第一置信度像素，否则记为第二置信度像素，生成指示相应融合伪标签不确定度的融合掩码/>；其中，argmax表示取最大值对应的元素，第一置信度高于第二置信度，第一置信度像素的掩码值为1，第二置信度像素的掩码值为0。

5.根据权利要求1所述的一种弱监督图像语义分割方法，其特征在于，所述利用图像数据集中任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码构造一个边界已知的样本包括：

将任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码记为和/>；其中，/>与/>表示任意两个图像，/>与/>为图像/>对应的融合伪标签与指示相应融合伪标签不确定度的融合掩码，/>与/>为图像/>对应的融合伪标签与指示相应融合伪标签不确定度的融合掩码；

；

其中，表示逐元素乘操作，类别掩码/>中所选择类别对应像素的掩码值为1，剩余像素的掩码值为0；

；

其中，表示混合图像，/>表示边界已知的样本中的伪标签，即混合伪标签，/>表示边界已知的样本中的掩码，即混合掩码；/>表示边界图，通过第一置信度像素的类别掩码得到。

6.根据权利要求1或5所述的一种弱监督图像语义分割方法，其特征在于，所述训练过程中，对于每一样本，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络包括：

训练集中的样本包含边界未知样本与边界已知的样本，将单个样本的形式统一记为(X,Y,M,B)，其中，若为边界未知样本，则X表示图像数据集中的一个图像，Y表示图像X对应的离线伪标签，M表示指示相应离线伪标签不确定度的离线掩码；若为边界已知的样本，则X为构造出的混合图像，Y为混合图像X对应的混合伪标签/>，M为指示相应混合伪标签不确定度的混合掩码/>；B表示边界图，对于边界未知样本边界图为全0矩阵，对于边界已知的样本，B为构造边界已知的样本时生成的边界图/>；

将训练集输入至孪生网络，根据掩码指示的不确定度和伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，将孪生网络中第一个网络的协同训练损失记为，将孪生网络中第二个网络的协同训练损失记为/>，同时，基于样本包含或未包含的边界信息计算边界增强损失，孪生网络每一网络的损失为协同训练损失与边界增强损失之和，表示为：

；

其中，表示孪生网络中第一个网络的损失，/>表示孪生网络中第二个网络的损失，以上两个损失的公式中第二项为相应网络的边界增强损失，/>为权重；L_CE为交叉熵损失；N表示训练集中样本数目，H与W为图像的高度与宽度，/>、/>、/>对应的表示图像/>中像素j处的离线伪标签值或混合伪标签值、离线掩码值或混合掩码值、边界值；/>为孪生网络中第一个网络针对图像/>中像素j的预测结果，/>为孪生网络中第二个网络针对图像/>中像素j的预测结果；

构造边界增强的协同训练损失，训练所述孪生网络：

；

其中，L_BECO表示边界增强的协同训练损失。

7.根据权利要求6所述的一种弱监督图像语义分割方法，其特征在于，所述协同训练损失表示为：

；

其中，e为自然常数，为根据预测结果/>生成的在线伪标签值，/>为孪生网络中第一个网络针对图像/>中像素j的预测的不确定度，/>为根据预测结果/>生成的在线伪标签值，/>为孪生网络中第二个网络针对图像/>中像素j的预测的不确定度；当/>时，计算的是/>与/>，当/>时，计算/>与/>，/>表示图像/>中像素j为第一置信度像素，/>表示图像/>中像素j为第二置信度像素。

8.一种弱监督图像语义分割系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

孪生网络构建与边界已知的样本构造单元，用于构建协同训练的用于语义分割的孪生网络，将图像数据集中单个图像分别输入至孪生网络，将孪生网络的预测结果混合，生成融合伪标签与指示相应融合伪标签不确定度的融合掩码，并利用图像数据集中任意两个图像及相应融合伪标签与指示相应融合伪标签不确定度的融合掩码构造一个边界已知的样本，掩码包括边界未知样本中的离线掩码与边界已知的样本中的掩码，伪标签包括边界未知样本中的离线伪标签与边界已知的样本中的伪标签；

孪生网络训练单元，用于利用若干边界未知样本与构造的若干边界已知的样本形成训练集，利用所述训练集训练孪生网络；训练过程中，对于每一样本，根据相应掩码指示的不确定度和相应伪标签对孪生网络的预测结果计算协同训练损失来施加一致性，以及基于样本包含或未包含的边界信息计算边界增强损失，利用协同训练损失与边界增强损失训练孪生网络；其中，所述每一样本包括边界未知样本与边界已知的样本；

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。