CN115331012B

CN115331012B - 基于零样本学习的联合生成式图像实例分割方法及系统

Info

Publication number: CN115331012B
Application number: CN202211256409.0A
Authority: CN
Inventors: 王少华; 秦者云; 袭肖明; 刘兴波; 聂秀山; 尹义龙
Original assignee: Shandong University; Shandong Jianzhu University
Current assignee: Shandong University; Shandong Jianzhu University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-03-24
Anticipated expiration: 2042-10-14
Also published as: CN115331012A

Abstract

本发明属于图像实例分割技术领域，为解决现有技术图像实例分割效果差的问题，提供了基于零样本学习的联合生成式图像实例分割方法及系统。其中，该方法包括获取待分割的可见类图像和文本描述，分别提取视觉特征和属性语义特征；拼接视觉特征和所述属性语义特征，得到拼接特征；基于拼接特征及联合生成对抗网络的编码器，得到属性增强的视觉特征；基于属性增强的视觉特征及联合生成对抗网络的解码器，得到重建图像特征；将重建图像特征划分为网格，使用基于位置协同定位的两路网络对每个网格进行实例分割，上路分支网络预测每个网格的类别属性，下路分支网络预测每个网格的实例掩码。其根据实例的位置和大小为每个像素分配类别，提高实例分割效果。

Description

基于零样本学习的联合生成式图像实例分割方法及系统

技术领域

本发明属于图像实例分割技术领域，尤其涉及一种基于零样本学习的联合生成式图像实例分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图像实例分割是为了获得图像中每一个实例所的区域，尽管基于深度卷积模型的方法在这项任务中取得了良好的性能，但它们需要昂贵的密集注释来学习它们的众多参数。为了训练良好的实例分割模型，需要大量具有完整像素级标签的图像。但是，收集所有类别的标签数据是不切实际的。在实际场景中，通常会出现不同于训练中类别的新类别。在这种情况下，实例分割神经网络很难为它们做出正确的预测。这属于零样本学习的范畴下。由于在训练过程中缺乏看不见的类数据，零样本学习是一项具有挑战性的任务。

发明人发现，现有的方法试图通过一个共同的中间语义空间在视觉空间和类空间之间建立一种映射，但这往往导致域偏移的问题，即对看得见的样本有很强的偏向性，从而导致图像实例分割效果差的问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于零样本学习的联合生成式图像实例分割方法及系统，其利用重建的特征能够学习可见类和不可见类的区分性特征，并且使用基于语义和视觉信息协同聚类的方式进行实例分割，可以根据实例的位置和大小为实例中的每个像素分配类别，从而很好地将实例分割转化为一个单镜头分类可解决的问题，提高图像实例分割效果。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于零样本学习的联合生成式图像实例分割方法，其包括：

获取待分割的可见类图像和文本描述，分别提取视觉特征和属性语义特征；

拼接所述视觉特征和所述属性语义特征，得到拼接特征；

基于拼接特征及联合生成对抗网络的编码器，得到属性增强的视觉特征；

基于属性增强的视觉特征及联合生成对抗网络的解码器，得到重建图像特征；

将所述重建图像特征网格化处理，使用基于位置协同定位的两路网络对每个网格进行实例分割；其中，一路分支网络用于预测每个网格的类别属性，另一路分支网络用于预测每个网格的实例掩码；

采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果。

作为一种实施方式，所述基于位置协同定位的两路网络的训练过程中的损失函数为：实例类别分支损失函数与实例掩码分支损失函数之和。

作为一种实施方式，所述实例掩码分支损失函数为：

其中，

为实例掩码分支损失函数；/>

表示正样本数量；G是指标函数；/>

为交叉熵损失；/>

是实例掩膜的第k个通道的分割掩码；/>

表示实例掩膜的第k个通道的掩膜标签。

作为一种实施方式，将重建图像特征和从待分割的可见类图像中直接提取的视觉特征作为输入样本，基于生成对抗损失和变分损失来训练联合生成对抗网络。

作为一种实施方式，联合生成对抗网络的解码器由变分自动编码器和对抗生成器两部分构成，用于分别重建可见类图像的特征。

本发明的第二个方面提供了一种基于零样本学习的联合生成式图像实例分割系统，其包括：

特征提取模块，其用于获取待分割的可见类图像和文本描述，分别提取视觉特征和属性语义特征；

特征拼接模块，其用于拼接所述视觉特征和所述属性语义特征，得到拼接特征；

视觉特征增强模块，其用于基于拼接特征及联合生成对抗网络的编码器，得到属性增强的视觉特征；

图像特征重建模块，其用于基于属性增强的视觉特征及联合生成对抗网络的解码器，得到重建图像特征；

网格实例分割模块，其用于将所述重建图像特征网格化处理，使用基于位置协同定位的两路网络对每个网格进行实例分割；其中，一路分支网络用于预测每个网格的类别属性，另一路分支网络用于预测每个网格的实例掩码；

实例分割结果确定模块，其用于采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果。

作为一种实施方式，所述实例掩码分支损失函数为：

其中，

为实例掩码分支损失函数；/>

表示正样本数量；G是指标函数；/>

为交叉熵损失；/>

是实例掩膜的第k个通道的分割掩码；/>

表示实例掩膜的第k个通道的掩膜标签。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。

本发明的第四个方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明基于零样本的图像实例分割，结合了变分推理和生成对抗来缩小可见类和不可见类的特征差异，并且利用类级语义属性作为条件信息，基于像素和整体重构的特征生成，重建的特征能够学习到可见类和不可见类的区分性特征，并且使用基于语义和视觉信息协同聚类的方式进行实例分割，可以根据实例的位置和大小为实例中的每个像素分配类别，从而很好地将实例分割转化为一个单镜头分类可解决的问题，提高了图像实例分割效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于零样本学习的联合生成式图像实例分割方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例提供了一种基于零样本学习的联合生成式图像实例分割方法，其包括：

步骤S101：获取待分割的可见类图像和文本描述，分别提取视觉特征和属性语义特征。

在步骤S101的具体实施过程中，使用骨干网络提取可见类图像的视觉特征，对文本描述进行编码得到属性语义特征。例如：骨干网络为ResNet101。

此处需要说明的是，在其他实施例中，骨干网络也可为其他现有的网络结构，本领域技术人员可根据实际情况来具体选择，此处不再累述。

步骤S102：拼接所述视觉特征和所述属性语义特征，得到拼接特征。

在步骤S102中，所述视觉特征的维度是1×D1，所述属性语义特征的维度是1×D2，拼接后的特征的维度为1×（D1+D2）

步骤S103：基于拼接特征及联合生成对抗网络的编码器，得到属性增强的视觉特征。

其中，联合生成对抗网络包含编码器（E），解码器(G)和判别器(D)，对抗性分类器(C)等三部分，其中基于对抗式学习的分类器用于确保生成的特征具有类别级的区分性，基于感知重构的生成器为特征生成保留了更多的语义信息。

编码器E同时捕捉视觉特征x和属性语义特征s，并将联合编码特征映射到一个潜在的空间，然后解码器G将潜在表示解码至特征空间进行重构。该重构由两部分构成，二者共享解码器的权重。一部分是由条件变分编码器实现，其损失函数包含KL（Kullback-Leibler）散度损失

和重构损失/>

构成：

（1）

（2）

（3）

其中

表示条件变分编码器的损失函数；

，/>

和/>

分别表示视觉特征和属性语义特征的先验分布，

是高斯分布，/>

是高斯噪声。/>

表示编码器E的参数，/>

表示期望，通过最小化公式（2）可以减小潜在表示的分布与其先验分布之间的差距，最小化公式（3）可以减少真实图像和重构图像之间平方误差。

解码器的另一部分由对抗生成器构成，为了在像素相似度的基础上获取更具有区分性的全局信息，进一步使用判别器D进行对抗学习：

其中

为判别器D的损失；/>

是联合编码特征。生成器G（因为变分编码器和对抗生成器共享网络参数和网络结构，这里使用G来表示生成器，不再区分表示）旨在合成与真实视觉特征分布相似的特征，而判别器则试图将真实视觉特征与生成的视觉特征区分开来。

为了确保生成的视觉特征具有类别级的区分性，分类器也采用对抗式设计：

其中

为分类器的损失；x是真实视觉特征，/>

是生成器G基于潜在表示/>

生成的视觉特征，/>

是生成器G基于高斯噪声z生成的视觉特征，/>

分类器C的参数。分类器C不仅必须要正确地将真实视觉特征映射到它们对应的K个类中，而且要将生成器G生成的特征分类到附加类（K+1）上。综上，联合模型的总体目标函数L为：

经过对整个模型的训练，生成器G能够高质量地合成视觉特征。给定一个高斯噪声z和已知类或陌生类的语义嵌入s，由生成器生成特征

如下：

步骤S104：基于属性增强的视觉特征及联合生成对抗网络的解码器，得到重建图像特征。

步骤S105：将所述重建图像特征网格化处理，使用基于位置协同定位的两路网络对每个网格进行实例分割；其中，一路分支网络用于预测每个网格的类别属性，另一路分支网络用于预测每个网格的实例掩码。

实例类别信息的实例分割模块有两个分支：实例类别分支和实例掩码分支。生成的增强特征大小为

，将其化为/>

个方格，然后分别输入到两个分支中。实例类别分支使用修改后的Resnet18模型，使得模型输出大小满足/>

，其中C为类别数。具体来说，如果网格/>

落入任何标签掩膜的中心区域，则将其视为正样本；否则，它为负样本。对于标签掩膜，给定掩膜质心/>

，宽高/>

，中心区域设置为/>

。对于实例掩码分支，首先创建一个大小为/>

的张量，使用CoordConv获得归一化的图像的x-y坐标信息。将坐标信息和特征拼接后的张量（大小为/>

）输入到改进后的FCN网络，使得模型输出大小满足/>

，即每个图像（原始尺寸为/>

）都会有/>

个输出掩膜。实例掩膜的第k个通道就可以很自然的和类别信息通过网格/>

联系起来，/>

。

实例分割模块的损失函数

如下：

实例类别分支的

采用Focal Loss；其中，Focal Loss为一种处理样本分类不均衡的损失函数，其公式为现有技术，此处不再详述。

实例掩码分支的

为

其中，

为实例掩码分支损失函数；/>

表示正样本数量；G是指标函数；/>

为交叉熵损失；/>

是实例掩膜的第k个通道的分割掩码；/>

表示实例掩膜的第k个通道的掩膜标签。

S106：采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果。

直接对每个网格来建立最终的实例分割结果。原始的实例分割结果是通过收集所有网格结果生成的。采用非最大抑制(non-maximum-suppression, NMS)算法得到最终的实例分割结果。不需要其他的后期处理操作。

本实施例采用了联合生成模型来解决零样本学习的实例分割的问题，基于生成的特征适用于解决可见类样本和不可见类样本之间的域迁移现状，此外基于视觉信息和属性信息的位置协同实例分割方法以聚类的方式将从而很好地将实例分割转化为一个单目分类可解决的问题。

表1是本实施例的该方法的一个仿真实验，该实验采用平均查准率和平均召回率进行度量。本任务使用的公开数据集MS-COCO，将其分为48个可见类和17个不可见类。

与现有技术相比，本实施例的该方法，极大地降低了过拟合现象，提高了实例分割的性能。

表1 本发明与其他算法准确度比较

其中，表1涉及到的其他方法定义如下：

DSES：是没有采用端到端的训练方式，选用极为耗时的Edge-Box候选框产生方式，加上了80类之外物体的候选框用于训练，并采用基于残差网络的Inception-v2网络来提取候选框的参数。在损失函数上，使用了最大化边缘距离来对齐语义特征和视觉特。

PL：是主曲线算法，是Hastie于1984年提出的。主曲线是通过数据分布“中央”并满足“自相合”的光滑曲线，其目的是根据给定的数据集合求出一条曲线，使得这条曲线对给定的数据集合是某种意义下的对偶。

BLC：Black Level Correction，黑电平校正算法，黑电平也就是黑色的最低点，以8bit数据来说，指在经过一定校准的显示装置上，没有一行光亮输出的视频信号电平。定义图像数据为0时对应的信号电平。

为了减小可见类数据和未可见类数据之间的差距，本实施例提出了一种联合生成模型来综合特征作为未可见类数据的替代。基于所生成的特征，可以对传统的零样本学习问题进行监督处理，集成了变分自动编码器(VAE)和基于类级语义属性的通用生成对抗网络(GAN)，用于基于像素和整体重构的特征生成，重建的特征能够学习到可见类和不可见类的区分性特征，并且使用基于语义和视觉信息协同聚类的方式进行实例分割，可以根据实例的位置和大小为实例中的每个像素分配类别，从而很好地将实例分割转化为一个单镜头分类可解决的问题。

实施例二

本实施例提供一种基于零样本学习的联合生成式图像实例分割系统，其包括：

（1）特征提取模块，其用于获取待分割的可见类图像和文本描述，分别提取视觉特征和属性语义特征。

（2）特征拼接模块，其用于拼接所述视觉特征和所述属性语义特征，得到拼接特征。

（3）视觉特征增强模块，其用于基于拼接特征及联合生成对抗网络的编码器，得到属性增强的视觉特征。

（4）图像特征重建模块，其用于基于属性增强的视觉特征及联合生成对抗网络的解码器，得到重建图像特征。

（5）网格实例分割模块，其用于将所述重建图像特征网格化处理，使用基于位置协同定位的两路网络对每个网格进行实例分割；其中，一路分支网络用于预测每个网格的类别属性，另一路分支网络用于预测每个网格的实例掩码。

在具体实施过程中，所述基于位置协同定位的两路网络的训练过程中的损失函数为：实例类别分支损失函数与实例掩码分支损失函数之和。

其中，所述实例掩码分支损失函数为：

其中，

为实例掩码分支损失函数；/>

表示正样本数量；G是指标函数；/>

为交叉熵损失；/>

是实例掩膜的第k个通道的分割掩码；/>

表示实例掩膜的第k个通道的掩膜标签。

（6）实例分割结果确定模块，其用于采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。

实施例四

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于零样本学习的联合生成式图像实例分割方法，其特征在于，包括：

拼接所述视觉特征和所述属性语义特征，得到拼接特征；

采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果；

其中，编码器同时捕捉视觉特征和属性语义特征，并将联合编码特征映射到一个潜在的空间，然后解码器将潜在的表示解码至特征空间进行重构；联合生成对抗网络的解码器由变分自动编码器和对抗生成器两部分构成，用于分别重建可见类图像的特征。

2.如权利要求1所述的基于零样本学习的联合生成式图像实例分割方法，其特征在于，所述基于位置协同定位的两路网络的训练过程中的损失函数为：实例类别分支损失函数与实例掩码分支损失函数之和。

3.如权利要求2所述的基于零样本学习的联合生成式图像实例分割方法，其特征在于，所述实例掩码分支损失函数为：

其中，

为实例掩码分支损失函数；

表示正样本数量；G是指标函数；

为交叉熵损失；

是实例掩膜的第k个通道的分割掩码；

表示实例掩膜的第k个通道的掩膜标签。

4.如权利要求1所述的基于零样本学习的联合生成式图像实例分割方法，其特征在于，联合生成对抗网络的解码器由变分自动编码器和对抗生成器两部分构成，用于分别重建可见类图像的特征。

5.一种基于零样本学习的联合生成式图像实例分割系统，其特征在于，包括：

实例分割结果确定模块，其用于采用非最大值抑制算法处理所有网格的实例分割结果，得到最终的实例分割结果；

6.如权利要求5所述的基于零样本学习的联合生成式图像实例分割系统，其特征在于，所述基于位置协同定位的两路网络的训练过程中的损失函数为：实例类别分支损失函数与实例掩码分支损失函数之和。

7.如权利要求6所述的基于零样本学习的联合生成式图像实例分割系统，其特征在于，所述实例掩码分支损失函数为：

其中，

为实例掩码分支损失函数；

表示正样本数量；G是指标函数；

为交叉熵损失；

是实例掩膜的第k个通道的分割掩码；

表示实例掩膜的第k个通道的掩膜标签。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于零样本学习的联合生成式图像实例分割方法中的步骤。