CN111583284A

CN111583284A - 一种基于混合模型的小样本图像语义分割方法

Info

Publication number: CN111583284A
Application number: CN202010323472.6A
Authority: CN
Inventors: 叶齐祥; 杨博宇; 刘畅; 万方; 韩振军; 焦建彬
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-25
Anticipated expiration: 2040-04-22
Also published as: CN111583284B

Abstract

本发明公开了一种基于混合模型的小样本图像语义分割方法、一种小样本图像语义分割装置及计算机可读存储介质，所述方法包括以下语义分割模型的训练步骤：步骤1，对有标注的支撑图像特征进行原型向量提取；步骤2，对无标注待分割的查询图像进行特征激活；步骤3，获得训练后的小样本语义分割模型。本发明所公开的语义分割方法降低了支撑图像的信息损失，提高了神经网络对查询图像的分割精度，改善了小样本语义分割中语义混叠的问题，对小样本学习、增量学习等有重要意义，对于自然场景图像、医学图像等领域的语义分割具有应用价值。

Description

一种基于混合模型的小样本图像语义分割方法

技术领域

本发明涉及小样本学习与计算机视觉领域，具体涉及一种基于混合模型的小样本图像语义分割方法。

背景技术

深度神经网络例如卷积神经网络(CNN)已经在计算机视觉、语义分割中取得了巨大成就，其很大程度上依赖于网络在大数据集的训练。然而，在语义分割任务中，标注大数据集的目标轮廓耗时费力、成本昂贵并且不切实际。因此，迫切需要小样本学习方法来解决这一问题。

小样本学习是在利用训练图像完成网络特征表达学习后，利用少量带有标注的图像——支撑集，来实现对查询图像的分割，其挑战在于：一方面待分割的类别与训练图像的类别不同，另一方面支撑图像与查询图像在外观和姿态方面存在不同。

小样本学习语义分割的实现基于度量学习框架，当前方法大多为通过对有标注引导的支撑图像的特征图做池化操作，以提取一个原型向量，该向量再将每个维度的特征图压缩到一个点以将所有的特征信息压缩到向量的维度上；利用该原型向量比较支撑图像与查询图像来实现对查询图像的分割。

但是，利用一个全局平均得到的原型向量来表示整个特征图会丢掉整个图的特征分布以及空间信息，一个原型向量会导致不同对象部分的语义混叠，并完全丢失特征的分布。

因此，有必要提供一种简单有效的方法，以改善小样本语义分割中语义混叠的问题，提高分割精度。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种基于混合模型的小样本图像语义分割方法，该方法对少量有标注的支撑图像特征建立混合模型提取多个原型向量，利用多原型向量对无标注待分割的查询图像进行特征激活与概率图计算，实现对查询图像的分割。本发明所提供的方法无需大量数据标注，降低了支撑图像的信息损失，提高了神经网络对查询图像的分割精度，改善了小样本语义分割中语义混叠的问题，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供一种基于混合模型的小样本图像语义分割方法，所述方法包括以下语义分割模型的训练步骤：

步骤1，对有标注的支撑图像特征进行原型向量提取；

步骤2，对无标注待分割的查询图像进行特征激活；

步骤3，获得训练后的小样本语义分割模型。

第二方面，提供一种小样本图像语义分割装置，优选用于实施第一方面所述的方法，所述装置包括向量提取单元、特征激活单元和语义分割单元，其中，

向量提取单元，用于对少量有标注的支撑图像特征建立混合模型，以提取多个原型向量；

特征激活单元，利用多个原型向量对无标注待分割的查询图像进行特征激活与概率图计算；

语义分割单元，利用分割网络实现对查询图像的分割。

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现第一方面所述方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于混合模型的小样本图像语义分割方法，无需大量数据标注，减少了人工标注成本；

(2)本发明提供的基于混合模型的小样本图像语义分割方法，降低了支撑图像的信息损失，提高了神经网络对查询图像的分割精度；

(3)本发明提供的基于混合模型的小样本图像语义分割方法，改善了小样本语义分割中语义混叠的问题；

(3)本发明提供的基于混合模型的小样本图像语义分割方法，对小样本学习、增量学习等有重要意义，对于自然场景图像、医学图像等领域的语义分割具有应用价值。

附图说明

图1示出本发明一种优选实施方式的基于原型混合模型(PMMs)的小样本图像语义分割方法的流程图；

图2示出本发明一种优选实施方式的基于残差结构混合模型(RPMMs)的小样本图像语义分割方法的流程图；

图3示出本发明一种优选实施方式的原型向量与支撑图像中目标成分的对应图；

图4示出本发明一种优选实施方式的网络激活图与概率图；

图5示出本发明实施例中Pascal-5ⁱ数据集各类别性能结果图；

图6示出本发明实施例中Pascal-5ⁱ数据集结果比对图；

图7示出本发明实施例中COCO-20ⁱ数据集结果比对图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本发明提供了一种基于混合模型的小样本图像语义分割方法，所述方法包括以下语义分割模型的训练步骤：

步骤1，对有标注的支撑图像特征进行原型向量提取；

步骤2，对无标注待分割的查询图像进行特征激活；

步骤3，获得训练后的语义分割模型。

以下进一步详细描述所述训练步骤：

步骤1，对有标注的支撑图像特征进行原型向量提取。

其中，步骤1包括以下子步骤：

步骤1-1，提取支撑图像与查询图像特征图。

在本发明中，优选给定的支撑图像(支撑集)与查询图像(查询集)的类别相同。其中，所述支撑图像是指有语义标注的图像，所述类别是指语义标注的类别相同，如羊、牛等。

根据本发明一种优选的实施方式，采用卷积神经网络的基网提取支撑图像与查询图像的特征图。

优选地，采用的卷积神经网络基网包括VGG16网络和Resnet50网络。

在本发明中，具体地，提取支撑图像与查询图像特征的基网共享参数：当基网为VGG16时，不使用block4、block5的池化层，网络输出的特征维度为512，尺寸为输入图像尺寸的1/8；基网为Resnet50时，基网卷积采用空洞卷积，不使用stage4，stage2、stage3输出结果在通道上合并经过一层卷积核为3×3的卷积层得到最后的输出特征图，其维度为256。

步骤1-2，建立混合模型，提取多个原型向量。

其中，步骤1-2包括以下子步骤：

步骤1-2-1，构造混合模型输入的前景、背景样本集合。

在本发明中，考虑到当前的小样本学习语义分割方法是利用一个全局平均得到的原型向量来表示整个特征图，会丢掉整个图的特征分布以及空间信息，还会导致不同对象部分的语义混叠，并完全丢失特征的分布。因此，本发明人经过大量研究，构建了混合模型来提取多个原型向量，以克服上述问题。

根据本发明一种优选的实施方式，所述混合模型包括原型混合模型(PrototypeMixture Models,简称PMMs)和残差结构混合模型(Residual Prototype Mixture Models,简称RPMMs)。

其中，如图1所示，原型混合模型是指利用混合模型对支撑图像的特征图进行建模，提取原型向量用于加权支撑图像的特征；如图2所示，残差结构混合模型是指利用多个不同的原型混合模型提取多组原型向量，通过残差结构优化原型混合模型。

在本发明中，可以采用原型混合模型或残差结构混合模型来进行小样本图像语义分割。

根据本发明一种优选的实施方式，支撑图像的特征图S＝{s_i,i＝1,2,…,W×H}由W×H个C维特征构成，将标注信息为1的特征集合记为前景样本集S⁺，标注为0的特征集合记为背景样本集S^-。

步骤1-2-2，提取多个原型向量。

根据本发明一种优选的实施方式，分别对前景样本集S⁺和背景样本S^-建立混合模型(原型混合模型)，所述混合模型如下式(一)所示：

其中，p_k(s_i|θ)为s_i在第k个分布上的分布密度，为s_i为第i个特征点，θ＝{μ,κ}，β_c(κ)＝κ^c/2-1/(2π)^c/2I_c/2-1(κ)为归一化因子，I_ν(·)为贝塞尔函数，c为特征维度，κ为数据分布的离散程度，优选取值为20。

在进一步优选的实施方式中，采用EM算法更新混合模型的参数，

其中，所述E步通过下式(二)进行：

其中，E_ik为第k个特征在第i个分布上的概率，

为随机初始化参数，s_i为第i个特征点，κ为数据分布的离散程度，优选取值为20。

所述M步通过下式(三)进行：

其中，μ_k为聚类中心。

在本发明中，所述混合模型的参数即为原型向量，通过M步获得的

即为K个用来表示前景的原型向量，

为K个用来表示背景的原型向量。

在本发明中，通过支撑图像的语义标注与支撑图像的特征图，构造混合模型输入的前景、背景样本集合，并优选通过EM算法，估计样本集合的参数即为原型向量。

如图3所示，本发明所述的方法中，每个原型向量为一系列点的聚类中心，每个原型向量对应支撑图像的一个部分。

步骤2，对无标注待分割的查询图像进行特征激活。

其中，步骤2包括以下子步骤：

步骤2-1，获得查询图像的前景和背景概率图。

根据本发明一种优选的实施方式，获得查询图像的特征图在每个原型向量上分布的概率值，将属于前景的概率值相加得到前景概率图，将属于背景的概率值相加得到背景概率图。

具体地：查询图像的特征图Q由W×H个C维特征构成，步骤1中获得的原型向量组μ＝μ⁺∪μ^-的每个原型向量可视为1×1×C的卷积核，每个特征在原型向量组的卷积操作后通过softmax操作得到概率图

将前景原型向量

产生的概率图

相加得到前景概率图

同理可得背景概率图

步骤2-2，对查询图像特征再激活，获得查询图像新的特征图。

其中，步骤2-2包括以下子步骤：

步骤2-2-1，对查询图像特征图进行通道合并。

在本发明中，将原型向量插值到查询图像特征图尺寸后，将二者融合后过一层卷积层得到特征图，记为Q′。优选地，所述卷积层为卷积核为3×3的卷积层。

步骤2-2-2，获得查询图像新的特征图。

根据本发明一种优选的实施方式，将前景概率图

背景概率图

与特征图Q′在通道上合并，即

在进一步优选的实施方式中，将Q″经过一层卷积核为3×3的卷积层得到新的特征图。

其中，如图4所示，查询图像中每个特征点在每个原型上的概率不同，多个概率图融合为前景、背景概率图。本发明中所述方法利用原型向量产生判别概率图，多个原型向量更多的保留了支撑图像的特征，能够激活丢失的部分或者整个目标，有效缓解了现有技术中语义混叠的问题。

步骤3，获得训练后的语义分割模型。

根据本发明一种优选的实施方式，将获得的查询图像新的特征图经过分割网络，通过卷积核为3×3的卷积层得到预测为前景或背景的语义分割图。

其中，所述分割网络可以为ASPP。

在本发明中，由于残差结构混合模型是利用多个不同的原型混合模型提取多组原型向量，其神经网络采用多分支残差结构，因此，当采用残差结构混合模型时，优选地，还包括对混合模型进行优化的步骤。

其中，残差结构混合模型的神经网络采用多分支残差结构，每个分支的混合模型提取的原型向量个数K不同，每个分支的向量个数由上到下依次为K₁,K₂,K₃,…，其中K₁<K₂<K₃。

在本发明中，优选按照包括以下步骤的方法对模型进行优化：

步骤i，获得每个分支的原型向量以及查询图像的概率图。

优选地，将每个分支分别执行步骤1-2和步骤2-1，以得到每个分支的原型向量以及查询图像的概率图。

步骤ii，将上一分支的分割图融合到下一分支的特征中继续得到分割图，依次进行，直至得到最后一个分支的分割图。

优选地，上一分支的分割图由上一分支执行步骤2-2得到，进而将其融合到下一分支的特征中继续执行步骤2-2，依次进行，直至得到最后一个分支的分割图。

步骤iii，根据最后一个分支的分割图的交叉熵损失，以及损失函数的梯度，对网络进行误差梯度反传，更新网络参数。

其中，优选采用随机梯度下降法(Stochastic Gradident Descent,SGD)获得损失函数的梯度。

在本发明中，通过上述训练，对所述神经网络进行参数优化，获得小样本图像语义分割模型。

根据本发明一种优选的实施方式，本发明所述的语义分割方法还可以包括测试步骤：即利用训练好的小样本图像语义分割模型，对未知图像进行小样本语义分割。

其中，所述未知图像是指图像类别与训练部分的图像类别完全不同，即新的类别。

在进一步优选的实施方式中，所述未知图像中每个支撑图像的个数为1个(1shot)或多个(few shot)；

当支撑图像为多个时，所有的图像构造新的样本集合建立混合模型，共同提取多个原型向量。

本发明还提供了一种小样本图像语义分割装置，优选用于实施上述方法，所述装置包括向量提取单元、特征激活单元和语义分割单元，其中，

语义分割单元，利用分割网络实现对查询图像的分割。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现上述语义分割方法的步骤。

本发明中所述的小样本图像语义分割方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

1.1、Pascal-5ⁱ是特定用于小样本语义分割的数据集。该数据集主要由PascalVOC2012以及SDS的附加标注构成。数据集的20类被分为4组，每组5个类，每次训练采用其中的3组数据，另外一组作为测试。测试时，在测试组中随机采样1000个支撑、查询集对。

其中，所述Pascal-5ⁱ的分组类别对应表如表1所示。

表1

1.2、COCO-20ⁱ数据集由MSCOCO 2017生成。数据集的80类被分为4组，每组20个类，每次训练采用其中的3组数据，另外一组作为测试。测试时，在测试组中随机采样1000个支撑、查询集对。

其中，COCO-20ⁱ的分组类别对应表如表2所示。

表2

2、性能评测准则

采用mIoU(mean intersection over-union)指标来进行性能评测，该指标为所有类别的IoU的平均值。对于每个类，IoU的计算方式为IoU＝TP/(TP+FP+FN)，其中TP、FP、FN分别为真正类、假正类、假负类的像素点数量。

3、任务描述

小样本语义分割，利用数据集中训练组的数据完成网络特征表达学习(即训练步骤)后，利用测试组的少量带有标注的图像——支撑集，实现对查询图像的分割；测试完成后利用mIoU进行性能评测。

4、结果与分析

本发明分别使用resnet50和VGG16作为基网，在Pascal-5ⁱ、COCO-20ⁱ进行学习与评测，结果如下表3～6所示，其中，表3示出了PASCAL-5ⁱ 1-shot的测试性能结果，表4和表5示出了本发明所述方法与现有技术在PASCAL-5ⁱ数据集上的性能对比结果，表6示出了本发明所述方法与现有技术在COCO-20ⁱ数据集上的性能对比结果。

表3 PASCAL-5ⁱ 1-shot测试性能

其中，√表示使用了该模型。

由表3可以看出，PMMs在Baseline(CANet去除迭代优化模块)的基础上提高了3.34％(55.27％相较于51.93％)，RPMMs在PMMs的基础上进一步提高了1.07％(56.34％相较于55.27％)。

因此，由上述可知本发明所述方法的有效性。

进一步地，图5示出了本发明在Pascal-5ⁱ数据集各类别的性能，由图5可以看出本发明在大多目标类别上均有效。

表4 PASCAL-5ⁱ 1shot性能对比

其中，P-5ⁱ为Pascal-5ⁱ下的性能，Mean为四组数据(P-5⁰、P-5¹、P-5²、P-5³)的平均性能。

表5 PASCAL-5ⁱ 5shot性能对比

其中，OSLSM、co-FCN、SG-One、CANet为现有技术中小样本语义分割的最新技术方法：

OSLSM的具体操作步骤如“Shaban,A.,Bansal,S.,Liu,Z.,Essa,I.,Boots,B.:One-shot learning for semanticsegmentation.In:BMVC.(2017)”中所述；

co-FCN的具体操作步骤如“Rakelly,K.,Shelhamer,E.,Darrell,T.,Efros,A.A.,Levine,S.:Conditional networks for few-shot semantic segmentation.In:ICLRWorkshop.(2018)”中所述；

SG-One的具体操作步骤如“Zhang,X.,Wei,Y.,Yang,Y.,Huang,T.:Sg-one:Similarity guidance network forone-shot semantic segmentation.CoRR abs/1810.09091(2018)”中所述；

CANet的具体操作步骤如“Zhang,C.,Lin,G.,Liu,F.,Yao,R.,Shen,C.:Canet:Class-agnostic segmentation networks with iterative refinement and attentivefew-shot learning.In:IEEECVPR.(2019)5217-5226”中所述。

由表4和表5可知，在1-shot和5-shot任务设定中，本发明所述小样本语义分割方法都由于现有最新技术。具体地，在1shot设定Resnet50基网下，本发明所述方法(基于RPMMs的语义分割方法)比现有技术的最高性能提高了2.38％(56.34％相较于53.96％)；在5shot设定Resnet50基网下，本发明所述方法(基于RPMMs的语义分割方法)比现有技术的最高性能提高了1.50％(57.30％相较于55.80％)。

表6 COCO-20⁰测试性能

其中，C-20ⁱ为COCO-20ⁱ下的性能；

FWB的具体操作步骤如“Nguyen,K.,Todorovic,S.:Feature weighting andboosting for few-shot segmentation.In:IEEE ICCV.(2019)622-631”中所述；

PANet的具体操作步骤如“Wang,K.,Liew,J.,Zou,Y.,Zhou,D.,Feng,J.:Panet:Few-shot image semanticsegmentation with prototype alignment.(2019)622-631”中所述；

Baseline为CANet去除迭代优化模块。

由表6可以看出，在COCO-20ⁱ数据集的1-shot和5-shot任务设定中，本发明所述方法都由于现有最新技术。其中，在1shot设定下，本发明所述方法(基于RPMMs的语义分割方法)相较于Baseline提升了4.47％，相较于PANet与FWB分别提升了9.68％、9.39％；在5shot设定下，本发明所述方法(基于RPMMs的语义分割方法)相较于baseline提升了7.66％，比PANet与FWB分别提升了5.82％、11.87％。

由此可以表明本发明所述方法的小样本语义分割性能超过了现有最新技术的性能。

进一步地，将本发明所述方法与Baseline方法在Pascal-5ⁱ的分割结果进行比对，结果如图6所示。

由图6可知，本发明所述方法为只计算前景原型向量，不计算背景原型向量以及概率图，该方法能够调高分割像素的召回率；引入背景向量以及概率图后，PMMs能够进一步增强模型的判别能力，缓解模型语义混叠的问题；RPMMs通过更精细的边缘分割提升分割质量。

图7为本发明所述方法(RPMMs)在COCO-20ⁱ的分割结果图，该图展示了本发明所述方法在大数据集下使用依旧能有不错的分割结果。

更进一步地，比较分析本发明与CANetBaseline和OSLSM方法的模型大小，结果显示：PMMs模型大小为19.5M，比CANetBaseline(19M)略高，但比OSLSM(272.6M)显著减少。主要是因为本发明所述混合模型的原型向量为1×1×C的向量，所以不会显著增加模型的参数或者计算复杂度。

在1shot实验设定下，原型向量个数K＝3时，模型在一张2080TiGPU上速度为26FPS，比CANet(29FPS)速度略低。RPMMs的速度为20FPS，模型大小为19.6M。说明本发明所带来的显著性能提升并未依赖巨大的计算复杂度以及模型参数量。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种基于混合模型的小样本图像语义分割方法，其特征在于，所述方法包括以下语义分割模型的训练步骤：

步骤1，对有标注的支撑图像特征进行原型向量提取；

步骤2，对无标注待分割的查询图像进行特征激活；

步骤3，获得训练后的小样本语义分割模型。

2.根据权利要求1所述的方法，其特征在于，采用卷积神经网络提取支撑图像与查询图像的特征图。

3.根据权利要求1所述的方法，其特征在于，步骤1包括以下子步骤：

步骤1-1，获取支撑图像与查询图像特征图；

步骤1-2，建立混合模型，获取多个原型向量。

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括以下子步骤：

步骤1-2-1，构造混合模型输入的前景、背景样本集合；

步骤1-2-2，提取多个原型向量。

5.根据权利要求1所述的方法，其特征在于，步骤2包括以下子步骤：

步骤2-1，获得查询图像的前景和背景概率图；

6.根据权利要求1所述的方法，其特征在于，所述基于混合模型的小样本图像语义分割方法，还包括利用训练好的小样本语义分割模型对未知图像进行小样本语义分割的步骤。

7.根据权利要求6所述的方法，其特征在于，所述未知图像是指图像类别与训练部分的图像类别完全不同。

8.一种小样本图像语义分割装置，优选用于实施权利要求1至7之一所述的方法，其特征在于，所述装置包括向量提取单元、特征激活单元和语义分割单元，其中，

语义分割单元，利用分割网络实现对查询图像的分割。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现权利要求1至7之一所述方法的步骤。