CN112364870B

CN112364870B - 一种基于特征和谐激活的小样本语义分割方法

Info

Publication number: CN112364870B
Application number: CN202011139920.3A
Authority: CN
Inventors: 焦建彬; 刘冰昊; 叶齐祥
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-10-15
Anticipated expiration: 2040-10-22
Also published as: CN112364870A

Abstract

本发明公开了一种基于特征和谐激活的小样本语义分割方法、小样本语义分割系统及计算机可读存储介质，所述方法包括训练分割模型用以进行语义分割的过程，分割模型训练过程包括以下步骤：对支撑图片和查询图片进行特征提取；对支撑特征和查询特征进行融合，获得中间特征激活图；对中间特征激活图进行更新，获得特征和谐激活图；对特征和谐激活图进行语义分割，获得查询图片的分割图。本发明所公开的基于特征和谐激活的小样本语义分割方法，在充分保留支撑和查询特征中细节信息的同时，将查询特征中的目标类别进行了准确而完整的激活。

Description

一种基于特征和谐激活的小样本语义分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于特征和谐激活的小样本语义分割方法，利用少量带标注的支撑样本对无标注的查询样本进行语义分割。

背景技术

深度学习在视觉、文字、语音、搜索等领域取得了巨大的进展，很大程度上得益于大量带标注的数据集。但是，数据集的标注需要耗费大量的人力物力，尤其是语义分割任务，其数据集需要像素级别的稠密标注，成本非常高昂。小样本学习可以通过学习少量带标注的数据，快速学习并优化模型，在很大程度上缓解了标注成本的问题。

小样本语义分割，首先将模型在一定量带标注的数据上进行特征提取学习，使得模型具有一定的特征表达能力；然后利用支撑集提供的少量图片，实现对查询集图片的准确分割。

目前，主流的小样本语义分割方法是基于度量学习框架，其主要做法是：将支撑图像中目标类别特征压缩为向量，作为目标类别的表征；然后利用此向量与查询特征空间位置上所有像素进行比对，依据其相似度来进行查询图像的分割。

但是，将目标类别特征压缩为语义向量的做法会丢失很多细节信息，同时，将语义向量和查询特征比对会导致支撑和查询特征元素中间交互不充分，使得查询特征中的目标类别特征不能很好地被激活，从而产生类别错分，分割不完整的问题。

因此，有必要提供一种小样本语义分割方法，其能够充分保留支撑和查询特征中的细节信息，且能够将查询特征中的目标类别进行准确而完整的激活。

发明内容

为了克服上述问题，本发明人进行了锐意研究，提出了一种基于特征和谐激活的小样本语义分割方法，对少量带标注的支持图像和查询图像提取特征，利用双线性特征激活模型和语义传播模型将支撑特征和查询特征进行融合，实现对查询图的和谐特征激活，并将目标类别准确分割。利用特征和谐激活的方法，在充分保留支撑和查询特征中细节信息的同时，将查询特征中的目标类别进行了准确而完整的激活，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供一种基于特征和谐激活的小样本语义分割方法，所述方法包括训练分割模型用以进行语义分割的过程，分割模型训练过程包括以下步骤：

步骤1，对支撑图片和查询图片进行特征提取；

步骤2，对支撑特征和查询特征进行融合，获得中间特征激活图；

步骤3，对中间特征激活图进行更新，获得特征和谐激活图；

步骤4，对特征和谐激活图进行语义分割，获得查询图片的分割图。

第二方面，提供一种小样本语义分割系统，优选用于实施第一方面所述的方法，所述系统包括特征提取单元、特征激活单元、语义传播单元和分割单元，其中，

特征提取单元，用于支撑图片和查询图片进行特征提取；

特征激活单元，用于引导支撑特征对查询特征进行激活，获得中间特征激活图；

语义传播单元，用于对中间特征激活图进行传播更新，获得特征和谐激活图；

分割单元，用于对特征和谐激活图进行语义分割，获得查询图片的分割图。

第三方面，提供一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有小样本语义分割程序，所述小样本语义分割程序被处理器执行时实现上述基于特征和谐激活的小样本语义分割方法。

本发明所具有的有益效果包括：

(1)本发明提供的基于特征和谐激活的小样本语义分割方法，仅需少量数据标注，降低了数据标注成本；

(2)本发明提供的基于特征和谐激活的小样本语义分割方法，基于双线性特征激活和语义传播，充分融合支撑和查询图的信息，并利用查询图自身的结构信息，提高了神经网络对查询图像的分割精度；

(3)本发明提供的基于特征和谐激活的小样本语义分割方法，采用低秩矩阵分解的方法对双线性特征激活进行近似，在大大提高激活效率的同时，保证了特征激活的效果；

(4)本发明提供的基于特征和谐激活的小样本语义分割方法，在PASCAL VOC和MSCOCO两大主流数据集上取得了当前最高的性能，对小样本学习、语义分割等有重要意义，对遥感图像分割、医学图像分割和自然场景图像分割等领域具有应用价值。

附图说明

图1示出本发明所述小样本语义分割方法的流程图；

图2示出根据本发明一种优选实施方式的双线性特征激活流程图；

图3示出根据本发明一种优选实施方式的融合张量的初步分解示意图；

图4示出根据本发明一种优选实施方式的语义传播的流程图；

图5示出本发明所述方法在PASCAL VOC数据集各类别性能提升柱状图；

图6示出本发明所述方法的分解矩阵秩和mIoU的关系图；

图7示出本发明所述方法在PASCAL VOC数据集上的结果可视化图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本发明提供了一种基于特征和谐激活的小样本语义分割方法，所述方法包括训练分割模型用以进行语义分割的过程，分割模型训练过程包括以下步骤，如图1所示：

步骤1，对支撑图片和查询图片进行特征提取；

步骤3，对中间特征激活图进行更新，获得特征和谐激活图；

以下进一步描述所述分割模型训练过程：

步骤1，对支撑图片和查询图片进行特征提取。

根据本发明一种优选的实施方式，所述支撑图片与查询图片中的目标具有相同类别，

优选查询图片为一张，支撑图片为一张或多张，以利用支撑图片及标注来引导查询图片的分割。

其中，采用卷积神经网络对支撑图片和查询图片进行特征提取，例如可以采用VGG-16或者ResNet-50作为基础网络，支撑分支和查询分支共享网络参数。

优选地，在利用VGG-16网络提取特征时，采用其block3输出的特征，维度为512维；在利用ResNet-50网络提取特征时，采用其stage2和stage3的特征输出，将两个stage输出的特征在通道上进行合并，然后输入卷积核大小为3×3的单层卷积，得到输出特征图，其维度为256维。

步骤2，对支撑特征和查询特征进行融合，获得中间特征激活图。

在本发明中，步骤1中获得的支撑图和查询图的维度分别为H*W*D_s和H*W*D_q，其中，H和W分别表示特征图的高度和宽度，D_s和D_q则分别表示支撑特征图的通道数和查询特征图的通道数。对其进行二维重构，分别得到f_s和f_q，其维度分别为HW*D_s和HW*D_q。

根据本发明一种优选的实施方式，如图2所示，利用双线性特征激活模型引导支撑特征对查询特征进行激活，获得中间特征激活图，

其中，所述双线性特征激活模型为利用融合张量将支撑特征和查询特征进行融合，如下式(一)所示：

A＝T×₁f_s×₂f_q(一)

其中，A表示激活特征，T表示融合张量，其维度为D_s*D_q*D_o，×_i(i＝1，2)表示张量和矩阵之间的i模乘法，f_s表示重构后的支撑特征，f_q表示重构后的查询特征。

在本发明中，采用双线性模型进行融合，相较于现有技术中的线性融合，具有特征细节信息丢失少，融合特征交互充分，特征激活更加准确完整的优点。

优选地，所述中间特征激活图的获得包括以下步骤：

步骤2-1，对支撑特征和查询特征进行精细语义信息提取。

本发明人发现，采用上述双线性模型进行特征融合时维度较高，为了在获得支撑特征和查询特征的精细语义信息的同时，不过度增加模型的参数和计算量，我们需要对融合张量T进行分解近似，利用分解得到的向量来编码支撑特征和查询特征并提取其中的语义信息。

根据本发明一种优选的实施方式，所述分解近似包括初步分解和再次分解，

其中，如图3所示，所述初步分解为对融合张量T进行Tucker分解，优选按照下式(二)进行：

T＝τ×1M_s×2M_q×₃M_o(二)

其中，τ表示核心张量，维度为t_s*t_q*t_o；M_s，M_q，M_o为二维矩阵，M_s维度为D_s*t_s；M_q维度为D_q*t_q；M_o维度为D_o*t_o。

其中，将T进行初步分解后，式(一)可以表示为：

A＝τ×1(M_sf_s)×₂(M_qf_q)×₃M_o

如图2中所示，重构后的支撑特征f_s和重构后的查询特征f_q分别通过二维矩阵M_s和M_q，降维至维度分别为HW*t_s和HW*t_q。

在本发明中，通过对融合张量T进行Tucker分解，得到一个更小的核心张量和三个二维矩阵，由于核心张量仍然为三维，需要进行再次分解。

在进一步优选的实施方式中，所述再次分解为对核心张量

进行低秩矩阵分解，优选按照下式(三)进行再次分解：

其中，u_m表示行向量，

表示列向量，L代表

的秩。

如图2中所示，本发明中将

分解为L个行列向量积之和。通过引入低秩矩阵分解，将核心张量分解为若干个列向量和行向量的乘积之和，在加速算法的同时减少了内存占用。

其中，根据分解获得的列向量和行向量，分别与降维至维度分别为HW*t_s和HW*t_q的支撑特征和查询特征相乘，可以获得支撑语义向量和查询语义向量。

步骤2-2，对支撑特征和查询特征进行相似语义信息激活，获得激活置信图。

根据本发明一种优选的实施方式，将步骤2-1获得的支撑语义向量和查询语义向量，相互计算外积,然后在第一个维度上进行拼接，在第二个维度上进行求和，进行相似语义信息的激活，获得激活置信图。

其中，支撑特征和查询特征在与二维矩阵及行向量、列向量相乘之后，相互计算外积。通过张量和矩阵相乘的方式，将支撑特征和查询特征之间的元素进行了两两交互，实现了对查询特征中目标特征的激活。

本发明人经过研究发现，将融合张量进行低秩矩阵分解之后，利用分解得到的矩阵和向量提取支撑特征和查询特征的精细语义信息，进而将支撑特征和查询特征进行元素之间的稠密融合，可以显著提高特征激活效率，尤其是当L取3时，既能提高计算效率、减少模型参数，又能保证激活效果。

优选地，可以按照下式(四)对支撑特征和查询特征进行融合：

步骤2-3，调整激活置信图的维度，获得激活特征，进而得到中间特征激活图。

对步骤2-2获得的激活置信图进行维度扩充，得到激活特征A，然后进行语义整合，将激活特征在第1个维度上进行求和，张量重构后得到中间特征激活图，记为

其维度为H*W*D_o。

步骤3，对中间特征激活图进行更新，获得特征和谐激活图。

本发明人研究发现，通过获得步骤2的中间特征激活图，能够将查询特征中显著的特征进行激活，但仍存在部分目标特征区域未被激活，需要采用语义传播模型对中间特征激活图进行迭代更新，以获得特征和谐激活图。

优选地，如图4所示，步骤3包括以下子步骤：

步骤3-1，对查询特征进行编码，获得传播参数。

在本发明中，步骤1中获得的查询特征的维度为H*W*D_q，优选地，利用卷积神经网络中的卷积模块对查询特征进行编码，得到传播参数，记为P。

其中，传播参数代表查询特征图中每个点和其邻域点的传播权重。

根据本发明一种优选的实施方式，所述卷积模块为三层卷积级联而成，每一层卷积核大小为3*3，步长为1；

优选地，前两层卷积输入和输出通道数均为D_q，最后一层卷积输入通道数为D_q，输出通道数为r²。

如图4所示，每个点(红色点)的传播参数具有r×r个，由于查询特征的维度为H*W*D_q，经卷积模块编码后，维度为r²*H*W，具有H*W个点，则对应r²*H*W个传播参数。

步骤3-2，根据传播参数，更新中间特征激活图，获得特征和谐激活图。

在本发明中，语义信息的传播过程是一个迭代的过程，在每一次迭代(传播)的过程中，对于中间特征激活图上的每一个像素值，将由其邻域像素和传播参数更新。

其中，所述传播迭代过程如下式所示：

其中，

为第t次迭代后的激活图，P为传播参数，D表示传播迭代过程。

优选地，所述更新按照包括以下步骤的方法进行：

步骤3-2-1，将中间特征激活图通过卷积模块进行降维。

根据本发明一种优选的实施方式，降维卷积层为单层卷积，卷积核大小为3*3，步长为1；

降维卷积层的输入输出通道数分别为D_o和C。

步骤3-2-2，采用传播参数对中间特征激活图上的每一个像素点进行更新。

根据本发明一种优选的实施方式，对于中间特征激活图

的第i个通道图，其上任意一点(x，y)在迭代传播过程中将按如下方式更新：

其中，N_x,y表示点(x，y)的邻域像素，Y_x,y；e,g为约束系数满足：

在本发明中，当r为3，即每个点的传播参数具有3×3＝9个时，每一次迭代过程中，对于中间激活图上的每一个像素，其值将由传播参数加权其八邻域的点更新。

本发明人研究发现，由于传播参数包含了查询图片自身的结构信息，通过迭代传播可以很好地将中间特征激活图中未被激活的目标特征区域激活，增强中间特征激活图的结果语义一致性。

步骤3-2-3，迭代完成后，进行升维，获得特征和谐激活图。

在本发明中，迭代次数为Max(H,W)，其中，H和W分别表示特征图(中间特征激活图)的高度和宽度，迭代次数为高度和宽度中较大的值。

迭代后，采用卷积模块进行升维，卷积层为单层卷积，卷积核大小为3*3，步长为1，输入输出通道数为C和D，最终得到特征和谐激活图，其维度为H*W*D_o。

在本发明中，将上述获得的特征和谐激活图通过分割网络进行分割，可以采用现有技术中常用的网络进行，如ASPP。

优选地，在语义分割后，利用一层卷积核大小为3×3的卷积层对其进行降维，输出通道数为2，两个通道分别表征预测为前景和背景的分割图，即得到维度为H*W*2的分割图。

根据本发明一种优选的实施方式，所述分割模型训练过程还包括步骤5，利用交叉熵损失函数计算分割图与标注(查询图片的标注)之间的损失，利用梯度反传函数更新模型参数。

其中，优选采用随机梯度下降法获得损失函数的梯度。

在本发明中，通过上述训练过程，获得基于特征和谐激活的小样本语义分割模型。

根据本发明一种优选的实施方式，所述基于特征和谐激活的小样本语义分割方法还包括测试过程：即利用训练好的小样本语义分割模型，对未知图像进行小样本语义分割。

其中，所述未知图像是指图像类别与训练过程的图像类别完全不同，即训练过程和测试过程的类别无重合。

在进一步优选的实施方式中，测试过程中，支撑图片的个数为1个或多个。

当支撑图片为多个时，将对多个支撑图片分别提取特征，然后通过加权平均的方式对多个特征进行组合，再将组合后的支撑特征和查询特征进行和谐特征激活，得到特征和谐激活图。

优选地，在测试时，提供一张查询图片和一对(1-shot)或多对(few-shots)支撑图片和标注，将其输入模型进行特征和谐激活，并输出分割图，计算其分割准确性。

本发明提供的基于特征和谐激活的小样本语义分割方法，仅需少量数据标注，降低了数据标注成本；充分融合支撑和查询图的信息，并利用查询图自身的结构信息，提高了神经网络对查询图像的分割精度；对小样本学习、语义分割等有重要意义，对遥感图像分割、医学图像分割和自然场景图像分割等领域具有应用价值。

本发明的第二方面，提供了一种小样本语义分割系统，优选用于实施第一方面所述方法，所述系统包括特征提取单元、特征激活单元、语义传播单元和分割单元，其中，

特征提取单元，用于支撑图片和查询图片进行特征提取；

其中，所述特征激活单元包括精细语义信息提取子单元和相似语义信息激活子单元，以分别提取支撑特征和查询特征的精细语义信息、进行相似语义信息激活。

优选地，所述精细语义信息提取子单元包括低秩矩阵分解模块。

所述语义传播单元包括编码子单元，以对查询特征进行编码，获得传播参数；和

更新子单元，以利用传播参数更新中间特征激活图。

本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有小样本语义分割程序，所述小样本语义分割程序被处理器执行时实现上述基于特征和谐激活的小样本语义分割方法。

本发明中所述的基于特征和谐激活的小样本语义分割方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例

1、数据集：

本实施例在PASCAL-5ⁱ和COCO-20ⁱ主流数据集上进行。

PASCAL-5ⁱ是为小样本语义分割特定划分的数据集，它由PASCAL VOC 2012以及SDS两部分数据集组合得到。数据集包含20个类，被按顺序划分为4组，每组5个类别。

在训练时，分4个模型进行训练，每个模型训练时采用3组类别数据，剩下一组类别数据用来测试。在测试阶段，从测试类别数据中随机采样1000张查询图，及其对应的支撑图片标注对，输入模型进行分割。

其中，PASCAL-5ⁱ类别划分如表1所示。

表1

COCO-20ⁱ则是由MS COCO 2017重新划分得到。MS COCO2017包含80个类别，被依次分为4组，每组包含20个类别。

其中，COCO-20ⁱ类别划分如表2所示：

表2

2、评测标准

采用mIoU(meanintersectionover-union)指标来进行性能评测。mIoU计算所有测试类别的IoU并对其取平均。对于每个类别，IoU的计算方式为IoU＝TP/(TP+FP+FN)，其中TP、FP、FN分别代表分割图像中真正例类、假正例类、假负例类的像素点面积。

3、任务描述

小样本语义分割，将数据集划分为训练集和测试集，训练集带有完全标注。

首先利用训练集对模型进行基础训练，使得模型具有一定的特征提取和泛化能力。然后利用测试集中带有少量标注的支撑集，引导模型实现对查询集图像的分割，并对分割结果进行评测。

4、结果与分析

4.1、本实施例分别采用VGG-16和ResNet-50两种基础网络，在COCO-20ⁱ、PASCAL-5ⁱ两个数据集上进行训练和评测，结果如表3～7所示。

表3示出了COCO-20ⁱ 1-shot和5-shot测试性能结果：

表3

其中，

PANet的具体步骤如“Wang,K.,Liew,J.,Zou,Y.,Zhou,D.,Feng,J.:Panet:Few-shot image semanticsegmentation with prototype alignment.(2019)622-631”中所述；

FWB的具体步骤如“Nguyen,K.,Todorovic,S.:Feature weighting and boostingfor few-shot segmentation.In:IEEE ICCV.(2019)622-631”中所述；

Baseline为CANet去除迭代优化模块，CANet的具体步骤如“Zhang,C.,Lin,G.,Liu,F.,Yao,R.,Shen,C.:Canet:Class-agnostic segmentation networks withiterative refinement and attentive few-shot learning.In:IEEECVPR.(2019)5217-5226”中所述。

由表3可以看出，本发明所述方法(HFA)在1-shot和5-shot设定下性能均超越了其它方法。在1-shot设定下，HFA在baseline的基础上提升了4.86％，分别超越了PANet和FWB10.07％和9.78％；在5-shot设定下，HFA在baseline的基础上提升了6.10％，分别超越PANet和FWB4.26％和10.31％，说明本发明所述方法的性能在小样本语义分割任务上取得非常显著的提升。

表4和表5分别示出了PASCAL-5ⁱ 1-shot和5-shot的测试性能结果：

表4

表5

其中，OSLSM的具体步骤如“Shaban,A.,Bansal,S.,Liu,Z.,Essa,I.,Boots,B.:One-shot learning for semanticsegmentation.In:BMVC.(2017)”中所述；

co-FCN的具体步骤如“Rakelly,K.,Shelhamer,E.,Darrell,T.,Efros,A.A.,Levine,S.:Conditional networks for few-shot semantic segmentation.In:ICLRWorkshop.(2018)”中所述；

SG-One的具体步骤如“Zhang,X.,Wei,Y.,Yang,Y.,Huang,T.:Sg-one:Similarityguidance network forone-shot semantic segmentation.CoRR abs/1810.09091(2018)”中所述；

PGNet的具体步骤如“C.Zhang,G.Lin,F.Liu,J.Guo,Q.Wu,R.Yao,Pyramidgraphnetworks with connection attentions for region-based one-shotsemanticsegmentation,in:IEEE ICCV,2019”中所述；

CRNet的具体步骤如“W.Liu,C.Zhang,G.Lin,F.Liu,Crnet:Cross-referencenetworks for few-shot segmentation,in:IEEE/CVF Conference on ComputerVisionand Pattern Recognition(CVPR),2020”中所述。

由表4和表5可以看出，本发明所述方法(HFA)在1-shot和5-shot设定下性能均超越了其它方法。在1-shot设定下，在以VGG16为基础网络时HFA分别超越了PANet和FWB5.03％和1.23％；在以ResNet50为基础网络时，HFA超过CRNet1.08％。在5-shot的设定下，HFA同样达到了目前最高性能。

4.2、进一步地，对本发明小样本语义分割模型各个模块的性能及模型速度进行了检测，结果如表6和7所示。

表6

其中，“√”表示包含该功能单元。

表7

由表6可以看出，双线性特征激活在baseline的基础上提升了3.94％，证明了双线性特征激活模块的有效性；在对双线性模型进行低秩矩阵近似后，性能只降低了0.26％，但表7中显示模型的速度却大大加快了。语义传播模块在baseline的基础上提升了2.88％，这体现了查询图片内部的结构一致性对于语义分割的重要性，本发明中考虑了这一因素，其他方法并未考虑。

由表7可以看出，在以VGG16为基础网络的情况下，低秩矩阵分解在分割每张图片只需划分0.096秒，而不带低秩矩阵分解的方法需要0.432秒。同样，在ResNet50为基础网络的情况下，低秩矩阵分解也明显快于无低秩矩阵分解的方法(0.162vs0.621)。另外，在以VGG为基础网络的情况下，语义传播模块只占用了非常少的时间(0.001秒)。

4.3、本发明所述方法(HFA)和baseline在VOC数据集各类别性能的提升对比结果如图5所示，可以看出，相对于baseline，本发明所述方法在所有类别上均取得了明显的提升。

图6示出了本发明所述方法中分解矩阵稚和mIoU的关系，从图中可以看出，取低秩矩阵分解的秩为3时能够取得最理想的效果。

图7可视化了部分在PASCAL-5ⁱ数据集上的实验结果，其中，HFA代表本发明，B代表baseline。

可以看出，与baseline相比，本发明大大提高了类别特征激活的准确性和完整性，显著改善了类别错分和分割不完整的情况。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。