CN113223037A

CN113223037A - 一种面向大规模数据的无监督语义分割方法及系统

Info

Publication number: CN113223037A
Application number: CN202110600887.8A
Authority: CN
Inventors: 程明明; 高尚华; 李钟毓
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113223037B

Abstract

本公开提供了一种面向大规模数据的无监督语义分割方法及系统，获取待分割的多张图像；将获取的图像输入到分割网络模型中，得到语义分割结果；其中，分割网络模型采用无监督方式训练，训练过程为：对获取的训练图像进行基于像素注意力机制的表征学习，得到图像表征结果；根据得到的图像表征结果进行聚类，得到多个伪标签；根据得到的伪标签进行分割网络模型的训练；本公开通过像素注意力机制和像素对齐机制，使用基于无监督方法生成的前景显著性信息监督像素注意力机制的学习，提高了语义分割的效率和精度。

Description

一种面向大规模数据的无监督语义分割方法及系统

技术领域

本公开涉及图像处理技术领域，特别涉及一种面向大规模数据的无监督语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

图像语义分割也可以简称为语义分割，是计算机视觉领域的一个重要研究内容，即将一幅图像分割成具有不同语义的区域，并且标注出每个区域属于的类别，例如汽车、树或人脸等。图像语义分割可以用于许多应用场合，例如基于内容的图像检索、场景理解与目标定位等。应理解，目标定位就是语义分割的一个特例，只是把分割出的两个区域分别标注为前景与背景。无监督语义分割在完全不需要监督的情况下实现语义分割，相较于标准的语义分割，无监督语义分割不需要人工的标注，消除了成本。大数据量下语义分割的标注成本非常巨大，是不现实的。因此无监督方法在大规模语义分割中是必要的

在大规模图像数据的无监督语义分割任务中，表征学习扮演着重要的作用：1)模型应该在没有图像类别监督的情况下学习到类别相关的表征；2)提取语义分割结果需要模型学习形状表征；3)使用学习到的表征，模型需要将自我学习到的标签赋给图像中的每一个像素；4)大尺度的训练数据可以促进以无监督的方式学习到更丰富的表征，但不可避免地带来了更多的训练开销。

由于现有的语义分割数据集通常只有几万张图片，相对较小的数据集使语义分割可以负担得起更高的计算复杂性，因此出现了很多复杂模型来处理语义分割任务。例如，DeepLabv3+模型的计算开销是ResNet-50的8倍，但对于使用大规模数据集(上百万张图片)的大尺度无监督语义分割来说，复杂模型带来的计算复杂性过大，使得分割效率和分割结果的精度较低。

发明内容

为了解决现有技术的不足，本公开提供了一种面向大规模数据的无监督语义分割方法及系统，通过像素注意力机制和像素对齐机制，使用基于无监督方法生成的前景显著性信息监督像素注意力机制的学习，提高了语义分割的效率和精度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种面向大规模数据的无监督语义分割方法。

一种面向大规模数据的无监督语义分割方法，包括以下过程：

获取待分割的多张图像；

将获取的图像输入到分割网络模型中，得到语义分割结果；

其中，分割网络模型采用无监督方式训练，训练过程为：

对获取的训练图像进行基于像素注意力机制的表征学习，得到图像表征结果；

根据得到的图像表征结果进行聚类，得到多个伪标签；

根据得到的伪标签进行分割网络模型的训练。

进一步的，对获取的训练图像进行基于像素注意力机制的表征学习，包括以下过程：

给定来自一张图片的至少两个视图的特征，根据像素注意力机制得到它们的图像特征；

计算两张视图的交叠区域，进而得到它们的像素特征；

通过SwAV的聚类损失函数实现图像到图像的对齐，将像素特征对齐到图像特征实现图像到像素的对齐；

使用像素到像素的对齐，得到像素表征。

更进一步的，根据像素注意力机制，将像素注意力与图像特征相乘，得到它们的图像特征。

进一步的，分割网络模型采用DeepLabv3+模型，在DeepLabv3+模型骨干网络的最后两个阶段进行降采样操作，将低分辨率的特征图与DeepLabv3+模型骨干网络第二阶段的高分辨率特征融合。

进一步的，将图像表征结果进行全局平均池化处理，对全局平均池化处理后的特征进行聚类。

进一步的，对待分割的图像，移除训练好的分割网络模型中的全局平均池化层，对输出结果中每个图像对应的每一个像素的输出u，按下式得到该像素的类别标签：

当max(u)>τ时，II(max(u)>τ)为1，τ为前景和背景间的阈值，C为伪标签类别数。

进一步的，计算聚类得到的类别和真实类别间的匹配矩阵，通过最大化匹配矩阵，得到聚类类别和真实类别的映射关系，根据得到的映射关系，得到与真实类别匹配的语义分割结果。

本公开第二方面提供了一种面向大规模数据的无监督语义分割系统。

一种面向大规模数据的无监督语义分割系统，包括：

数据获取模块，被配置为：获取待分割的多张图像；

语义分割模块，被配置为：将获取的图像输入到分割网络模型中，得到语义分割结果；

其中，分割网络模型采用无监督方式训练，训练过程为：

根据得到的图像表征结果进行聚类，得到多个伪标签；

根据得到的伪标签进行分割网络模型的训练。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的面向大规模数据的无监督语义分割方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的面向大规模数据的无监督语义分割方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，通过像素注意力机制和像素对齐机制，使用基于无监督方法生成的前景显著性信息监督像素注意力机制的学习，提高了语义分割的效率和精度。

2、本公开所述的方法、系统、介质或电子设备，通过图像到像素的对齐机制，利用图像级别的特征指导像素特征做进一步优化，使用像素到像素的对齐机制来增强一张图片的两张视图的交叠区域间的特征相似性，得到了更加鲁棒的像素表征。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的像素注意力机制和像素对齐机制示意图。

图2为本公开实施例1提供的可视化效果示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

本公开实施例1提供了一种面向大规模数据的无监督语义分割方法，包括以下过程：

获取待分割的多张图像；

将获取的图像输入到分割网络模型中，得到语义分割结果。

具体的，包括以下内容：

S1：图像表征

本实施例中，提出了一个修改版的DeepLabv3+模型，其相对于原始的DeepLabv3+模型只有四分之一的计算开销，但输出分辨率保持一致，原始的DeepLabv3模型在骨干网络的最后两阶段移除降采样操作，保证了高分辨率的特征。

本实施例中的修改版DeepLabv3+模型在骨干网络的最后两个阶段进行降采样操作，降低了计算成本；同时，低分辨率的特征图通过与骨干网络第二阶段的高分辨率特征融合，产生了高分辨率的输出。

本实施例提出了像素注意力机制。假设模型根据图片计算得到特征z，SwAV将特征进一步映射到特征M[Pooling(z)]，其中M表示由两个全连接层和激活层组成的特征映射层，Pooling表示全局平均池化层。

SwAV基于映射后的图片特征进行聚类，学习图像级别的语义表征。然而，SwAV并没有考虑像素和形状的信息。为了使SwAV能学习到形状相关的表征，本实施例引入一个简单但高效的像素注意力机制，通过该机制，模型可以隐式地学习到寻找前景物体的能力。

像素注意力模块由卷积核大小为1的卷机层和一个Sigmoid函数组成，像素注意力表示为Sigmoid[Conv(z)]。如图1所示，将像素注意力与图像特征相乘，得到增强后的图像特征

与SwAV类似，

用于计算聚类损失，像素注意力机制可以使网络自动地关注图像中的语义区域，为了进一步使用更强、更准确的注意力指导表征学习，使用基于无监督方法生成的前景显著性信息监督像素注意力机制的学习，进一步提升性能。

此外，像素级别的表征需要强化像素间表征的一致性，例如属于同一类别的像素或者一张图片的两张视图中同一位置的像素。因此，本实施例提出图像到像素的对齐机制来强化像素特征和图像特征间的一致性。同时，本实施例也提出像素到像素的对齐机制，来强化同一张图片的不同视图间的像素的特征一致性。

如图1所示，给定来自一张图片的两个视图的特征(z₁,z₂)，根据像素注意力机制得到他们的图像特征

之后，计算出两张视图的交叠区域

并根据

得到他们相应的像素特征

图像到像素的对齐通过将像素特征对齐到图像特征上实现，即

其中L_s是SwAV的在线聚类损失，通过该机制，图像级别的特征可以指导像素特征做进一步优化。

进一步的，使用像素到像素的对齐机制来增强一张图片的两张视图的交叠区域间的特征相似性，即

通过像素到像素的对齐机制，得到了更加鲁棒的像素表征。

在具体实现上，由于像素级别的表征有更多的噪声，在使用M映射像素特征时不计算像素特征对M的梯度。

S2：聚类分析

假定有N张图片，在表征学习之后，得到图像表征Z＝{z_k∈R^L×H×W,k∈N}；基于图像表征将图像进行聚类，得到C个伪标签，聚为同一类的图片有相同的伪标签，得到N张图片的伪标签集合Q＝{q_k,k∈N}。

为了节省计算开销，本实施例将图像的特征做全局平均池化得到

聚类基于此特征进行。

S3：分割网络模型训练

使用伪标签，可以基于此训练分割网络。在表征学习网络上增加一个1×1卷积层处理输出产生分割结果。实际训练中使用全局平均池化层得到输出

以伪标签为监督信息，其中C是类别数。

S4：语义分割结果

在推理测试期间，因为Q仅仅包含图像级别的类别，仿照类激活图来移除全局平均池化层并且得到输出Y＝{y_k∈R^C×H×W,k∈N}，对于y_k中的每一个像素的输出u∈R^C，按下式得到该像素的类别标签：

其中，当max(u)>τ时，II(max(u)>τ)为1，τ是前景和背景间的阈值。

在实际的使用和测评中，聚类得到的伪标签需要与真实标签对应。对于图片集合D＝{D_k,k∈N}，图片的真实类别表示为集合G＝{G_k,k∈N}，图片的预测类别表示为集合P＝{P_k,k∈N}。其中D_k和P_k均为集合，表示第k张图片的标注和预测结果(一张图片可以有多个预测类别和真实类别)。

计算聚类得到的类别和真实类别间的匹配矩阵S∈R^C×C，S_ij表示第i个聚类类别和第j个真实类别间的匹配程度，其值越高表明第i个聚类类别和第j个真实类别更有可能属于同一类。

S_ij根据下式计算：

该式中，P_k×G_k是P_k和G_k的笛卡尔积，当(i,j)属于P_k×G_k时II函数的输出为1。基于匹配矩阵S，希望寻找双射

将第i个聚类类别与第f(i)个真实类别对应。通过最大化

找到理想的映射，这一优化目标通过匈牙利匹配算法实现。

基于本实施例所述的方法，最终实现了39.4％的测试集mIoU，一些可视化效果如图2所示。

实施例2：

本公开实施例2提供了一种面向大规模数据的无监督语义分割系统，包括：

数据获取模块，被配置为：获取待分割的多张图像；

其中，分割网络模型采用无监督方式训练，训练过程为：

根据得到的图像表征结果进行聚类，得到多个伪标签；

根据得到的伪标签进行分割网络模型的训练。

所述系统的工作方法与实施例1提供的面向大规模数据的无监督语义分割方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的面向大规模数据的无监督语义分割方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的面向大规模数据的无监督语义分割方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种面向大规模数据的无监督语义分割方法，其特征在于：包括以下过程：

获取待分割的多张图像；

将获取的图像输入到分割网络模型中，得到语义分割结果；

其中，分割网络模型采用无监督方式训练，训练过程为：

根据得到的图像表征结果进行聚类，得到多个伪标签；

根据得到的伪标签进行分割网络模型的训练。

2.如权利要求1所述的面向大规模数据的无监督语义分割方法，其特征在于：

对获取的训练图像进行基于像素注意力机制的表征学习，包括以下过程：

计算两张视图的交叠区域，进而得到它们的像素特征；

使用像素到像素的对齐，得到像素表征。

3.如权利要求2所述的面向大规模数据的无监督语义分割方法，其特征在于：

根据像素注意力机制，将像素注意力与图像特征相乘，得到它们的图像特征。

4.如权利要求1所述的面向大规模数据的无监督语义分割方法，其特征在于：

分割网络模型采用DeepLabv3+模型，在DeepLabv3+模型骨干网络的最后两个阶段进行降采样操作，将低分辨率的特征图与DeepLabv3+模型骨干网络第二阶段的高分辨率特征融合。

5.如权利要求1所述的面向大规模数据的无监督语义分割方法，其特征在于：

将图像表征结果进行全局平均池化处理，对全局平均池化处理后的特征进行聚类。

6.如权利要求1所述的面向大规模数据的无监督语义分割方法，其特征在于：

对待分割的图像，移除训练好的分割网络模型中的全局平均池化层，对输出结果中每个图像对应的每一个像素的输出u，按下式得到该像素的类别标签：

当max(u)>τ时，

为1，τ为前景和背景间的阈值，C为伪标签类别数。

7.如权利要求1所述的面向大规模数据的无监督语义分割方法，其特征在于：

计算聚类得到的类别和真实类别间的匹配矩阵，通过最大化匹配矩阵，得到聚类类别和真实类别的映射关系，根据得到的映射关系，得到与真实类别匹配的语义分割结果。

8.一种面向大规模数据的无监督语义分割系统，其特征在于：包括：

数据获取模块，被配置为：获取待分割的多张图像；

其中，分割网络模型采用无监督方式训练，训练过程为：

根据得到的图像表征结果进行聚类，得到多个伪标签；

根据得到的伪标签进行分割网络模型的训练。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的面向大规模数据的无监督语义分割方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的面向大规模数据的无监督语义分割方法中的步骤。