CN114373106A

CN114373106A - 基于上下文解耦和数据增强的弱监督语义分割方法及装置

Info

Publication number: CN114373106A
Application number: CN202111623444.7A
Authority: CN
Inventors: 吴庆耀; 苏宇堃; 孙瑞洲
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-19

Abstract

本发明公开了一种基于上下文解耦和数据增强的弱监督语义分割方法及装置，方法包括：将图像数据集输入弱监督语义分割模型中获取语义分割掩码；根据设定标准，从语义分割掩码中挑选对象实例组成掩码集合；采用在线增强的方式将掩码集合中的前景对象随机粘贴到图像数据集中得到增强图像集；将图像数据集和增强图像集共同输入弱监督语义分割模型中得到最终语义分割结果。本方法考虑到弱监督语义分割中前景和背景之间的上下文关联信息，能够从图像中解耦这种关联信息，使得网络更加集中于前景，不需使用额外数据，提升分割性能；对实际应用中如医疗数据分析，自动驾驶等场景提供了较好的解决方案。

Description

基于上下文解耦和数据增强的弱监督语义分割方法及装置

技术领域

本发明属于语义分割和数据增强的技术领域，具体涉及一种基于上下文解耦和数据增强的弱监督语义分割方法及装置。

背景技术

近年来，随着计算机硬件和深度学习的突破，人工智能领域在越来越多的领域快速发展。计算机视觉作为人工智能研究最广泛的领域，包含图像分类、目标检测、图像分割、图像生成、OCR文字识别等诸多细化方向，在人脸识别、无人驾驶、图像检索等领域有着广阔的应用。

图像分割是计算机视觉的一大分支，致力于判断图片中每个像素点所属的类别，但同时由于全监督的图像分割mask需要大量人工标注，于是当前研究方向逐渐转为需要更少监督信息的弱监督语义分割。近年来，弱监督语义分割逐渐成为流行的研究领域，如使用边界框，涂鸦，点以及图像级别的标签。在这些工作中，图像级别的标签需要最少的标注代价，且已经有广泛存在的大规模数据集，因而被广泛使用。许多方法使用类激活图(ClassActivate Map,CAM)，通过预测图像标签来获取对象种子区域；然而，CAM得到的分割结果只能识别出图像中少部分特征显著的区域，因此，研究人员设计了各种扩展对象种子区域的方法，比如：通过融合不同卷积层生成的判别区域来扩展目标区域；通过迭代擦除目标区域使网络学习对象的剩余区域等等。

尽管对象区域扩展技术层出不穷，但它们都使用CAM作为基石；后续扩展的效果都基于第一步中CAM的分割结果；然而，CAM所接受的监督信息只有图像级别的标签，当对象与上下文背景相关度高的时候，如船和水，飞机和天空，火车和铁轨，CAM就会错误地将背景识别成前景的一部分，使得训练的网络并没有将注意力集中在前景上，而是将其他相关性强的上下文信息作为判别依据。因此，这是一个值得思考并需要解决的问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于上下文解耦和数据增强的弱监督语义分割方法及装置，能够根据给定图片数据和现有分割方法，在不需要额外数据的情况下进行数据增强，提升模型的分割性能和鲁棒性。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于上下文解耦和数据增强的弱监督语义分割方法，包括下述步骤：

将图像数据集输入弱监督语义分割模型中获取语义分割掩码；

根据设定标准，从语义分割掩码中挑选对象实例组成掩码集合；

采用在线增强的方式将掩码集合中的前景对象随机粘贴到图像数据集中得到增强图像集；

将图像数据集和增强图像集共同输入弱监督语义分割模型中得到最终语义分割结果。

作为优选的技术方案，所述图像数据集仅包括图像级标签。

作为优选的技术方案，所述设定标准有2条：

1)、语义分割掩码图像中只含有单类别对象；

2)、语义分割掩码中，前景对象与整张图像的像素比满足

其中∈₁和∈₂是设定的阈值，m表示前景对象的像素总数，n表示整张图像的像素总数；

从语义分割掩码中挑选对象实例时需同时满足所述设定标准。

作为优选的技术方案，所述在线增强在CAM模型中进行，具体为：

从图像数据集中取出图片和标签对)I_i,L_i)，其中I_i表示图像数据集中的第i张图片，L_i表示第i张图片对应的标签；

从掩码集合中的取出前景对象图片和标签对(O_j,T_j)，其中O_j表示掩码集合中第j张前景对象图片，T_j表示第j张前景对象图片对应的标签且

即第j张前景对象图片对应的标签与图像数据集中第i张图片对应的标签不包含同一类别的对象；

将O_j粘贴到I_i中，得到增强图像I_i′；

在标签L_i中加入标签T_j，得到增强标签T_j′；

使用损失函数Loss(net(I_i),L_i)+Loss(net(I′_i),L′_i(优化CAM模型中的参数，其中net()表示CAM模型使用的基础网络；

重复上述步骤，直至图像数据集中的图片均被增强，获得增强图像集。

本发明另一方面提供了一种基于上下文解耦和数据增强的弱监督语义分割系统，应用于上述的基于上下文解耦和数据增强的弱监督语义分割方法，包括预处理模块、掩码获取模块、在线增强模块及语义分割模块；

所述预处理模块用于将图像数据集输入弱监督语义分割模型中获取语义分割掩码；

所述掩码获取模块用于根据设定标准，从语义分割掩码中挑选对象实例组成掩码集合；

所述在线增强模块用于将掩码集合中的前景对象随机粘贴到图像数据集中得到增强图像集；

所述语义分割模块用于将图像数据集和增强图像集共同输入弱监督语义分割模型中得到最终语义分割结果。

作为优选的技术方案，所述掩码获取模块采用2条标准来挑选对象实例，具体为：

1)、语义分割掩码图像中只含有单类别对象；

2)、语义分割掩码中，前景对象与整张图像的像素比满足

其中∈₁和∈₂是设定的阈值，m表示前景对象的像素总数，n表示整张图像的像素总数。

作为优选的技术方案，所述在线增强模块采用CAM模型对图像数据集进行数据增强，具体为：

从图像数据集中取出图片和标签对(I_i,L_i)，其中I_i表示图像数据集中的第i张图片，L_i表示第i张图片对应的标签；

将O_j粘贴到I_i中，得到增强图像I_i′；

在标签L_i中加入标签T_j，得到增强标签T_j′；

使用损失函数Loss(net(I_i),L_i)+Loss(net(I′_i),L′_i)优化CAM模型中的参数，其中net()表示CAM模型使用的基础网络；

本发明还一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序

指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于上下文解耦和数据增强的弱监督语义分割方法。

本发明又一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于上下文解耦和数据增强的弱监督语义分割方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明针对弱监督语义分割任务中数据质量不优、噪声污染、注意力不集中等问题，提出了一种基于上下文解耦的数据增强方法，考虑到弱监督语义分割中前景和背景之间的上下文关联信息，能够从图像中解耦这种关联信息，使得网络更加集中于前景中而不是与之相关的背景，无需使用额外数据，实现了数据增强，提升模型的分割性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于上下文解耦和数据增强的弱监督语义分割方法的流程结构图；

图2为本发明实施例在线增强的实例示意图；

图3为本发明实施例基于上下文解耦和数据增强的弱监督语义分割系统的结构图；

图4为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

实施例

请参阅图1，本实施例中提供了一种基于上下文解耦和数据增强的弱监督语义分割方法，包括下述步骤：

S1、将图像数据集输入弱监督语义分割模型中获取语义分割掩码；

S2、通过设定的标准，根据图像的场景复杂性、分割对象的覆盖范围从语义分割掩码中挑选合格的对象实例组成掩码集合；

S3、采用在线增强的方式将掩码集合中的前景对象随机粘贴到图像数据集中得到增强图像集；

S4、将图像数据集和增强图像集共同输入弱监督语义分割模型中得到最终语义分割结果。

更具体的，步骤S1中的图像数据集采用仅包括图像级标签的图像数据集，没有像素级别掩码标签，弱监督语义分割模型可以是任一现有弱监督分割模型。

步骤S2中，使用以下2条标准进行挑选：1)、语义分割掩码图像中只含有单类别对象；2)、语义分割掩码中，前景对象与整张图像的像素比满足

更具体的，步骤S3中，本方法的在线增强方法在CAM模型中进行，采用逐步生成增强图像的方式，而不是提前一次性生成增强图像集合，每个epoch中生成的增强图像都不一样，大大提高了图像多样性。简单来说，在每个batch中，先从图像数据集中抽取N张图片，再从掩码集合里挑选对应的N个前景对象，随机粘贴得到增强后的N张图片，这样，每个batch中就有2N张图片，具体为：

S31、从图像数据集中取出图片和标签对(I_i,L_i)，其中I_i表示图像数据集中的第i张图片，L_i表示第i张图片对应的标签；

S32、从掩码集合中的取出前景对象图片和标签对(O_j,T_j)，其中O_j表示掩码集合中第j张前景对象图片，T_j表示第j张前景对象图片对应的标签且

S33、如图2所示，将O_j粘贴到I_i中，得到增强图像I_i′；不同于传统的数据增强方法，本方法采用复制-粘贴前景对象的方式实现数据增强，实现了前景与背景之间上下文关系的解耦；

S34、在标签L_i中加入标签T_j，得到增强标签T_j′；

S35、使用损失函数Loss(net(I_i),L_i)+Loss(net(I′_i),L′_i)优化CAM模型中的参数，其中net()表示CAM模型使用的基础网络，如vgg，resnet等；

S36、重复上述S31-S35步骤，直至图像数据集中的图片均被增强，获得增强图像集。

本实施例中，在PASCAL VOC数据集上对本发明提出的基于上下文解耦和数据增强的弱监督语义分割方法进行分割性能测试，结果如下表所示：

可见，本发明提出的基于上下文解耦和数据增强的弱监督语义分割方法，考虑到弱监督语义分割中前景和背景之间的上下文关联信息，从图像中解耦这种关联信息，并进行数据增强，克服了数据质量不优、噪声污染灯问题，使得模型的分割指标明显优于其他模型，性能得到了明显提升。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于上下文解耦和数据增强的弱监督语义分割方法相同的思想，本发明还提供了基于上下文解耦和数据增强的弱监督语义分割系统，该系统可用于执行上述基于上下文解耦和数据增强的弱监督语义分割方法。为了便于说明，基于上下文解耦和数据增强的弱监督语义分割系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图3，在本申请的另一个实施例中，提供了一种基于上下文解耦和数据增强的弱监督语义分割系统300，该系统至少包括以下几个模块：

预处理模块301用于将图像数据集输入弱监督语义分割模型中获取语义分割掩码；

掩码获取模块302用于根据设定标准，从语义分割掩码中挑选对象实例组成掩码集合；

在线增强模块303用于将掩码集合中的前景对象随机粘贴到图像数据集中得到增强图像集；

语义分割模块304用于将图像数据集和增强图像集共同输入弱监督语义分割模型中得到最终语义分割结果。

更具体的，掩码获取模块302采用2条标准来挑选对象实例，具体为：

1)、语义分割掩码图像中只含有单类别对象；

2)、语义分割掩码中，前景对象与整张图像的像素比满足

更具体的，在线增强模块303采用CAM模型对图像数据集进行数据增强，具体为：

将O_j粘贴到I_i中，得到增强图像I_i′；

在标签L_i中加入标签T_j，得到增强标签T_j′；

使用损失函数Loss(net(I_i),L_i)+Loss(net(I′_i),L′_i)优化CAM模型中的参数，其中net()表示CAM模型使用的基础网络，如vgg，resnet等；

需要说明的是，本发明的基于上下文解耦和数据增强的弱监督语义分割系统与本发明的基于上下文解耦和数据增强的弱监督语义分割方法一一对应，在上述基于上下文解耦和数据增强的弱监督语义分割方法的实施例阐述的技术特征及其有益效果均适用于基于上下文解耦和数据增强的弱监督语义分割系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于上下文解耦和数据增强的弱监督语义分割系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于上下文解耦和数据增强的弱监督语义分割系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图4，在一个实施例中，提供了一种实现基于上下文解耦和数据增强的弱监督语义分割方法的电子设备，所述电子设备400可以包括第一处理器401、第一存储器402和总线，还可以包括存储在所述第一存储器402中并可在所述第一处理器401上运行的计算机程序，如基于上下文解耦和数据增强的弱监督语义分割程序403。

其中，所述第一存储器402至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器402在一些实施例中可以是电子设备400的内部存储单元，例如该电子设备400的移动硬盘。所述第一存储器402在另一些实施例中也可以是电子设备400的外部存储设备，例如电子设备400上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器402还可以既包括电子设备400的内部存储单元也包括外部存储设备。所述第一存储器402不仅可以用于存储安装于电子设备400的应用软件及各类数据，例如基于上下文解耦和数据增强的弱监督语义分割程序403的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器401在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器401是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器402内的程序或者模块，以及调用存储在所述第一存储器402内的数据，以执行电子设备400的各种功能和处理数据。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备400的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备400中的所述第一存储器402存储的基于上下文解耦和数据增强的弱监督语义分割程序403是多个指令的组合，在所述第一处理器401中运行时，可以实现：

进一步地，所述电子设备400集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于上下文解耦和数据增强的弱监督语义分割方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于上下文解耦和数据增强的弱监督语义分割方法，其特征在于，所述图像数据集仅包括图像级标签。

3.根据权利要求1所述基于上下文解耦和数据增强的弱监督语义分割方法，其特征在于，所述设定标准有2条：

1)、语义分割掩码图像中只含有单类别对象；

2)、语义分割掩码中，前景对象与整张图像的像素比满足

4.根据权利要求1所述基于上下文解耦和数据增强的弱监督语义分割方法，其特征在于，所述在线增强在CAM模型中进行，具体为：

从图像数据集中取出图片和标签对(I_i，L_i)，其中I_i表示图像数据集中的第i张图片，L_i表示第i张图片对应的标签；

从掩码集合中的取出前景对象图片和标签对(O_j，T_j)，其中O_j表示掩码集合中第j张前景对象图片，T_j表示第j张前景对象图片对应的标签且

将O_j粘贴到I_i中，得到增强图像I_i′；

在标签L_i中加入标签T_j，得到增强标签T_j′；

使用损失函数Loss(net(I_i)，L_i)+Loss(net(I′_i)，L′_i)优化CAM模型中的参数，其中net()表示CAM模型使用的基础网络；

5.基于上下文解耦和数据增强的弱监督语义分割系统，其特征在于，应用于权利要求1-4中任一项所述的基于上下文解耦和数据增强的弱监督语义分割方法，包括预处理模块、掩码获取模块、在线增强模块及语义分割模块；

6.根据权利要求5所述基于上下文解耦和数据增强的弱监督语义分割系统，其特征在于，所述掩码获取模块采用2条标准来挑选对象实例，具体为：

1)、语义分割掩码图像中只含有单类别对象；

2)、语义分割掩码中，前景对象与整张图像的像素比满足

7.根据权利要求5所述基于上下文解耦和数据增强的弱监督语义分割系统，其特征在于，所述在线增强模块采用CAM模型对图像数据集进行数据增强，具体为：

将O_j粘贴到I_i中，得到增强图像I_i′；

在标签L_i中加入标签T_j，得到增强标签T_j′；

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-4中任意一项所述的基于上下文解耦和数据增强的弱监督语义分割方法。

9.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-4任一项所述的基于上下文解耦和数据增强的弱监督语义分割方法。