CN115019036B

CN115019036B - 一种学习非目标知识的小样本语义分割方法

Info

Publication number: CN115019036B
Application number: CN202210505033.6A
Authority: CN
Inventors: 韩军伟; 刘源炜; 姚西文; 程塨; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-02-27
Anticipated expiration: 2042-05-10
Also published as: CN115019036A

Abstract

本发明涉及一种学习非目标知识的小样本语义分割方法，首先采用骨干网络对图像进行特征提取，分别得到关于查询和支持图像的特征图，然后利用特殊设计的背景损失函数优化背景原型对背景知识的学习，然后利用背景原型对查询特征图中的背景区域进行挖掘和排除，以该区域的查询特征图形成干扰物体原型，然后利用干扰物体原型在背景排除后的查询特征图中排除干扰物体区域，最后获得关于目标的分割最终结果。本发明利用了背景区域的一般性和背景区域与干扰区域的互补性，可以简单高效的挖掘并排除查询图像中的背景和干扰物体，大大提高了小样本目标的语义分割精度，实用性很强。

Description

一种学习非目标知识的小样本语义分割方法

技术领域

本发明属于计算机视觉算法研究领域，涉及一种学习非目标知识的小样本语义分割方法，具体涉及一种学习非目标知识的小样本语义分割方法。具体涉及一种在小样本的条件下，对非目标区域(背景和干扰物体)进行逐步排除，层进式的完成小样本语义分割任务的方法。

背景技术

由于全卷积网络架构的提出，深度学习在语义分割领域取得了里程碑式进展。然而大多数方法采用的是全监督的学习方案并需要大量标注的数据用于网络的训练。虽然全监督的方式在语义分割上可以实现良好的性能，但是对于大量数据的需求，使得人们要进行大量的费时费力的图像标注。因此，为了缓解这个问题，小样本语义分割提出在仅有几张标注的图像作为支持集在查询图像中分割出训练阶段未见过的类别目标物体。

目前，大量的传统基于深度学习的小样本语义分割研究通常首先对来自查询和支持图像提取特征，然后利用支持图像对应的二值掩码来获得类别原型，最后，使用该类表示原型通过匹配网络在查询图像中的分割出目标对象。虽然取得了一些成绩，但这些方法都侧重于从支持集中更有效地挖掘出目标类别信息，这常常在难区分地模糊区域预测出错误地分割结果。因此，急需提出一种简单高效地利用非目标区域对模糊区域进行有效排除的小样本语义分割方法。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种学习非目标知识的小样本语义分割方法，通过学习图像中非目标知识，对非目标区域(背景和干扰物体)进行逐步排除，层进式的完成小样本语义分割任务的方法。

技术方案

一种学习非目标知识的小样本语义分割方法，其特征在于步骤如下：

步骤1：随机初始化1个高斯分布且维度为C的背景原型向量P_BG，将该原型扩展成和查询特征图同样的尺度大小后，与查询特征图串联在一起，通过1个由2个3x3卷积层组成的简单的分割网络，得到关于背景的预测分割结果；

对分割结果背景损失函数进行优化：

其中，i和j表示空间位置的坐标，表示查询或者支持图像的背景预测结果，M^q/s表示查询或者支持图像的真实标注的分割图，log(·)表示以e为底的对数运算，∑表示求和运算，N表示物体的像素点的总数量，Z表示图像的尺度大小，q和s分别表示查询和支持图像，α是1个超参数用于平衡第二项；

步骤2：将背景原型向量P_BG扩展成和查询特征图同样的尺度大小后，再次与查询特征图串联在一起维度为2C，经过1个1x1的卷积层降维为C，然后再与扩展的支持原型串联成维度为2C的特征，经过1个1x1的卷积层得到排除背景且目标物体激活的查询特征图再通过1个由2层3x3卷积组成的简单的分割网络，得到关于目标物体的初步分割结果；

步骤3：以0.5作为预测分数的阈值，将步骤1中的背景的预测分割结果和步骤2中目标物体的初步分割结果形成对应的二值背景掩码图像与二值目标掩码图像；接着，将背景掩码图像与目标掩码图像的共同的补集区域作为干扰物体潜在区域Y_DO，然后将Y_DO与查询特征逐元素相乘并求均值后得到查询图像中干扰物体的原型P_DO；

步骤4：利用步骤3中获得的干扰物体的原型P_DO，将其扩展成和查询特征图同样的尺度大小后，再与步骤2中的查询特征图串联在一起，经过1个1x1的卷积层得到排除干扰物体的查询特征图，再通过1个由2个3x3卷积层组成的简单的分割网络，得到关于目标物体的最终分割结果。

有益效果

本发明提出的一种学习非目标知识的小样本语义分割方法，首先采用骨干网络对图像进行特征提取，分别得到关于查询和支持图像的特征图，然后利用特殊设计的背景损失函数优化背景原型对背景知识的学习，然后利用背景原型对查询特征图中的背景区域进行挖掘和排除，更进一步，在背景排除后的查询特征图中利用支持图像的原型获得关于目标的初步分割结果，将初步分割结果和背景区域的共同的补集区域作为干扰物体的潜在区域，以该区域的查询特征图形成干扰物体原型，然后利用干扰物体原型在背景排除后的查询特征图中排除干扰物体区域，最后获得关于目标的分割最终结果。本发明利用了背景区域的一般性和背景区域与干扰区域的互补性，可以简单高效的挖掘并排除查询图像中的背景和干扰物体，大大提高了小样本目标的语义分割精度，实用性很强。

本发明与现有技术相比，没有执着于如何从支持图像中构建关于目标类别信息的有效表达，而是挖掘存在于图像中的非目标知识，通过设计学习背景原型对背景区域进行排除，并在排除后的查询特征中进一步利用干扰物体原型对干扰物体予以排除，从而获得排除非目标区域的关于目标物体的分割结果。

附图说明

图1是本发明的实现流程图；

图2是查询图像；

图3是支持图像；

图4是查询图像的背景分割结果；

图5是查询图像的目标真实标注；

图6是支持图像的目标真实标注；

图7是查询图像的目标物体初步分割结果；

图8是查询图像中干扰物体的潜在区域。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：因特睿Xeon Gold 6240R 2.4GHZ服务器、英伟达GeForce RTX 3090显卡、编程语言是python，深度学习框架是pytorch。我们用pytorch框架实现发明中提出的方法。实验中所使用的训练和测试的图像来源于PASCAL VOC 2012：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/。训练集共包含20个类别，其中15类用于训练，另外5类用于测试。

参照图1的方法流程图，本发明具体实施如下：

步骤1：首先利用固定的骨干网络对图2查询图像和图3支持图像进行特征提取，然后利用随机初始化1个高斯分布且维度为C的背景原型向量P_BG，将该原型扩展成和查询特征图同样的尺度大小后，与查询特征图串联在一起，通过1个由2个3x3卷积层组成的简单的分割网络，得到图4中关于背景的分割结果。该背景分割结果利用如下背景损失函数进行优化，从而优化背景原型的学习。

背景损失函数的计算公式为：

其中，i和j表示空间位置的坐标，表示查询或者支持图像的背景预测结果，M^q/s表示查询或者支持图像的真实标注的分割图，log(·)表示以e为底的对数运算，∑表示求和运算，N表示物体的像素点的总数量，Z表示图像的尺度大小，q和s分别表示查询和支持图像，α是1个超参数用于平衡第二项。

步骤2：利用步骤1中已学习的背景原型向量P_BG，将其扩展成和查询特征图同样的尺度大小后，再次与查询特征图串联在一起维度为2C，经过1个1x1的卷积层降维为C，然后再与扩展的支持原型串联成维度为2C的特征，经过1个1x1的卷积层得到排除背景且目标物体激活的查询特征图再通过1个由2层3x3卷积组成的简单的分割网络，得到关于目标物体的初步分割结果。

步骤3：利用步骤1中的背景的预测分割结果和步骤2中目标物体的初步分割结果，形成对应的二值背景掩码图像与二值目标掩码图像。接着，将背景掩码图像与目标掩码图像的共同的补集区域作为干扰物体潜在区域Y_DO，然后将Y_DO与查询特征逐元素相乘并求均值后得到查询图像中干扰物体的原型P_DO。

步骤4：利用步骤3中中获得的干扰物体的原型P_DO，将其扩展成和查询特征图同样的尺度大小后，再与步骤2中的查询特征图串联在一起，经过1个1x1的卷积层得到排除干扰物体的查询特征图，再通过1个由2个3x3卷积层组成的简单的分割网络，得到关于目标物体的最终分割结果。

本发明最终在1个支持样本的设定下以ResNet-50为骨干网络在PASCAL VOC2012数据集上达到了64.2％的mIOU(真实值和预测值两个集合的交集和并集之比)，验证了该方法可行性和有效性。

Claims

1.一种学习非目标知识的小样本语义分割方法，其特征在于步骤如下：

对分割结果背景损失函数进行优化：