CN113052209B

CN113052209B - 融合胶囊相似性的单样本语义分割方法

Info

Publication number: CN113052209B
Application number: CN202110261694.4A
Authority: CN
Inventors: 赵璐; 郝琨
Original assignee: Tianjin Chengjian University
Current assignee: Tianjin Chengjian University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-04-01
Anticipated expiration: 2041-03-10
Also published as: CN113052209A

Abstract

融合胶囊相似性的单样本语义分割方法，涉及模式识别、图像处理以及计算机视觉等领域，本方法研究基于深度神经网络的单样本语义分割方法中不清楚的相似性映射问题以及该方法在PASCALVOC 2012数据集的图像语义分割任务中的应用。现有的基于深度神经网络的单样本语义分割方法能快速适应在未知类仅有一张标记图像的情形下完成查询图像的像素级语义类预测任务，但是该方法有时产生的相似性映射图不清楚，使得分割查询图像失败，本方法通过引入胶囊概念建立相似性映射，并设计一个相似性映射上的新边缘损失，与主交叉熵损失共同优化训练网络。基于本方法在PASCALVOC 2012数据集上mIoU值达到58.2％，与原始方法相比，其语义分割的准确率更高，具有一定的实用价值。

Description

融合胶囊相似性的单样本语义分割方法

技术领域

本发明涉及模式识别、图像处理以及计算机视觉等领域，具体涉及一种融合胶囊相似性的单样本图像语义分割方法。

背景技术

作为计算机视觉领域的重要研究课题，图像语义分割是指将输入图像分割为具有语义的多个区域，即对图像中的每个像素分配一个语义类别。近年来，国内外已出现很多基于深度学习的语义分割模型，它们通常需要大量的训练样本才能工作，而且不能处理未知类别。但人类可以通过一个新类的标记图像就轻松分割出其它图像中的相同类别，受此启发研究者提出了单样本语义分割方法，即只凭借单个标记图像就学习到一个新的类别概念。单样本语义分割网络包括两部分：首先将支持图像集和一个查询图像输入到特征提取和密度比较模块，产生支持特征、查询特征和它们的余弦相似性映射，然后再通过卷积预测模块产生查询图像的预测分割结果。而其中的关键在于如何产生相似性映射。

与传统单样本语义分割方法相比，本发明所提出的融合胶囊相似性的单样本语义分割方法具有以下特点：引入胶囊概念建立相似性映射，并设计一个新的边缘损失和主交叉熵损失共同优化训练网络，一定程度上解决了原相似性映射不清楚问题；与其他方法相比，所提方法的语义分割准确率更高。

发明内容

本发明提出融合胶囊相似性的单样本语义分割方法。该方法引入胶囊概念建立相似性映射从而实现单样本语义分割网络中的相似性映射模块，并综合利用相似性映射上的边缘损失以及预测分割结果和目标分割结果上的主交叉熵损失共同优化网络进行学习，与其他方法相比，所提方法对图像的语义分割准确率更高，具有一定的实用价值。

为解决上述技术问题，本发明所采取的技术方案是：

本发明的融合胶囊相似性的单样本语义分割方法，主要包括如下关键步骤：

S1、特征提取器的构建：

S1.1、导入预训练的特征提取器；

S1.2、输入支持图像到特征提取器得到支持图像的中级特征和高级特征；

S1.3、输入查询图像到特征提取器得到查询图像的中级特征和高级特征；

S2、基于胶囊的相似性映射生成器的构建：

S2.1、分别将查询图像高级特征和掩码后的支持图像高级特征转化成查询胶囊和支持胶囊；

S2.2、计算每个查询胶囊与所有支持胶囊的余弦相似性，取最大值作为每个查询胶囊在相似性向量中的对应元素；

S2.3、重塑相似性向量形成相似性矩阵即相似性映射；

S3、卷积预测模块的构建：

S3.1、对支持图像中级特征执行三个连续操作并调整尺寸，对相似性映射调整尺寸，对查询图像中级特征执行卷积操作，拼接这三个张量以备送入卷积预测模块；

S3.2、建立卷积预测模块结构；

S3.3、产生卷积预测模块输出即查询图像的预测分割结果；

S3.4、通过相似性映射图和目标分割图间的边缘损失以及预测分割图和目标分割图间的主交叉熵损失共同优化并训练单样本网络。

进一步，步骤S1.1中采用ResNet50作为预训练的特征提取器，该网络为包含50个二维卷积操作的残差网络，常作为图像处理和计算机视觉任务主干经典神经网络的一部分。

步骤S1.2中特征提取器针对支持图像分别输出中级特征和高级特征，其中中级特征用于卷积预测模块，高级特征用于基于胶囊的相似性映射生成器。

步骤S1.3中特征提取器针对查询图像分别输出中级特征和高级特征，其中中级特征用于卷积预测模块，高级特征用于基于胶囊的相似性映射生成器。

步骤S2.1中分别将查询图像高级特征和掩码后的支持图像高级特征转化成查询胶囊和支持胶囊方法如下：首先，查询图像高级特征和掩码后的支持图像高级特征都是三维张量，其每维大小为(c，h，w)，其中c为通道数，h为高度，w为宽度。将张量分裂成h×w个尺寸为c的向量，即对应张量中所有通道的每个位置。其次，通过挤压函数将这些向量转化成胶囊概念，令x_q，x_s分别代表分裂后的查询向量和支持向量，则上述过程可描述为：

该公式的计算结果则为对应的查询胶囊和支持胶囊。

步骤S2.2中计算每个查询胶囊与所有支持胶囊的余弦相似性，取最大值作为每个查询胶囊在相似性向量中的对应元素，则这一过程可形式化为：

其中h和w为特征张量中一个通道的高与宽，该公式的计算结果为查询胶囊x_q和支持胶囊x_s的余弦相似性。

C_Q＝[c₁，c₂，...，c_q，...，c_h×w]，

其中c_q＝max_{s∈{1，2，...，hw}}(cos(x_q，x_s))，q＝1，2，，...，h×w，c_q表示查询胶囊x_q的相似性值，所有查询胶囊的相似性值组成C_Q即相似性向量。

步骤S2.3中所述重塑相似性向量是将尺寸为h×w的相似性向量C_Q重塑成尺寸为h_C×w_C相似性矩阵即相似性映射M_Q，其中h_C为相似性矩阵的高，w_C为相似性矩阵的宽，同时满足h_C×w_C＝h×w。

步骤S3.1中首先用1×1卷积过滤查询图像中级特征，随后，支持图像中级特征需执行三个连续操作：1×1卷积、支持掩码乘积和全局平均池化；然后依照过滤后的查询图像中级特征张量的大小，将运算后的支持图像中级特征和相似性映射都调整成相等尺寸；最后拼接三个同尺寸张量并输入给卷积预测模块。

步骤S3.2中卷积预测模块结构依次由1个1×1卷积模块，3个3×3卷积模块和1个1×1卷积模块构成，其中最后一个1×1卷积模块用于产生分割结果。

步骤S3.3中通过卷积预测模块输出查询图像预测分割结果，并通过双线性插值法重塑分割结果，最终以原查询图像的尺寸显示预测分割图。

步骤S3.4中共同优化网络的两种损失为交叉熵损失和边缘损失，其中交叉熵损失是比较查询图像预测分割结果和目标分割结果间差距的交叉熵损失，而边缘损失是比较相似性映射和查询图像目标分割结果间差距的，为了使相似性映射对语义分割更有效，此辅助的边缘损失L_i，j在相似性映射M_Q中位置(i，j)上定义成：

L_i，j＝T_i，jmax(0，m⁺-‖v_i，j‖)²+λ(1-T_i，j)max(0，‖v_i，j‖-m-)²，

其中v_i，j为相似性映射M_Q在位置(i，j)的值，‖·‖为取范数操作，如果目标语义类在位置(i，j)出现则T_i，j＝1，否则T_i，j＝0，m⁺＝0.9，m^-＝0.1，，λ＝0.5为像素类错误的损失固定权值，总边缘损失定义为相似性映射M_Q中所有位置的边缘损失之和。

本发明采用上述技术方案所产生的有益效果在于：本发明设计了融合胶囊相似性的单样本语义分割方法，主要研究单样本语义分割网络中相似性映射生成器的构建问题及其在图像语义分割准确率上的效果。相似性映射生成器是单样本语义分割网络的关键模块，如何有效描述支持图像特征和查询图像特征间的相似性是设计单样本语义分割网络的关键，现有方法将查询图像特征与掩码化和全局平均池化的支持图像特征进行密度比较，但目标类中许多细节信息在池化过程被忽略，故该方法很可能产生不清楚的映射并最终使得分割失败。为了解决上述问题，本发明引入胶囊概念对支持图像高级特征和查询图像高级特征间的相似性进行描述，并定义了相似性映射和查询图像的目标分割图上的边缘损失，与查询图像的预测分割图和目标分割图上的主交叉熵损失共同优化训练网络。与现有方法相比，本方法建立的相似性映射更清楚，对图像的语义分割准确率更高，具有一定的实用价值。

附图说明

图1是本发明公开的融合胶囊相似性的单样本语义分割举例图；

图2是基于胶囊的相似性映射生成器的结构图；

图3是各种单样本语义分割方法的分割性能比较；

图4是各种5样本语义分割方法的分割性能比较；

图5是本方法与基准方法的分割效果比较。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

本发明实施例利用Python语言和PyTorch框架构建融合胶囊相似性的单样本语义分割方法。分割的主要目标是将图像中每个像素分配一个语义类别，从而对图像中的区域进行类别划分。主要涉及的实施操作有特征提取模块、相似性映射生成模块和卷积预测模块的构建，其中基于胶囊的相似性映射生成模块是算法最大的创新点。本发明引入胶囊概念对支持图像高级特征和查询图像高级特征间的相似性进行描述，并定义了相似性映射与查询图像目标分割图上的边缘损失，与查询图像预测分割图和目标分割图上的主交叉熵损失共同优化训练网络。

本实施例的融合胶囊相似性的单样本语义分割方法，如图1所示，主要包括如下关键步骤：

S1、特征提取器的构建：

S1.1、导入预训练的特征提取器；

S2、基于胶囊的相似性映射生成器的构建：

S2.3、重塑相似性向量形成相似性矩阵即相似性映射；

S3、卷积预测模块的构建：

S3.2、建立卷积预测模块结构；

S3.3、产生卷积预测模块输出即查询图像的预测分割结果；

步骤S1.1中采用ResNet50作为预训练的特征提取器，该网络为包含50个二维卷积操作的残差网络。

步骤S2中基于胶囊的相似性映射生成器的结构如图2所示，详细说明见步骤2.1-2.3。

该公式的计算结果则为对应的查询胶囊和支持胶囊。

C_Q＝[c₁，c₂，...，c_q，...，c_h×w]，

其中v_i，j为相似性映射M_Q在位置(i，j)的值，‖·‖为取范数操作，如果目标语义类在位置(i,j)出现则T_i,j＝1，否则T_i,j＝0，m⁺＝0.9，m^-＝0.1，，λ＝0.5为像素类错误的损失固定权值，总边缘损失定义为相似性映射M_Q中所有位置的边缘损失之和。

最后进行实验对比，将PASCALVOC 2012数据集中20个类分成4折，每折包含5个测试类和15个训练类，随机抽取1000个查询支持图像对用于评估。采用学习率0.0025和批量大小为4对网络训练200趟，并用mIoU值(类平均交并比)作为评估分割准确率的指标。图3和图4分别给出了本方法与其他方法在PASCALVOC 2012数据集上的单样本和5样本的分割性能mIoU值对比结果。无论凭借单样本支持图像还是5样本支持图像执行查询图像的新语义类预测任务，图3和图4表明本方法的mIoU值在同类方法中最高，分别达到58.2％和61.0％，且高出性能第二方法5.05％和6.83％，故融合胶囊产生相似性映射和加入边缘损失优化网络可以有效提高少样本学习时语义分割的准确率。

图5给出本方法与基准方法的分割效果比较，例如第一幅图显示本方法能成功分割出三辆自行车，而基准方法只能分割出两辆自行车；第五幅图为轨道列车图，其显示即使在查询图和支持图间没有很多相似处时本方法也能区分出目标和背景，而基准方法混淆了目标和背景。

本发明基于胶囊的相似性映射能较准确捕捉到查询图和支持图间的相似性，建立更清楚的相似性映射矩阵，并且引入相似性映射和查询目标分割图上的边缘损失能比较相似性映射和查询图像目标分割结果间差距，与主交叉熵损失共同优化网络，最终实现了融合胶囊相似性的单样本语义分割方法在分割准确率上更高的效果。

Claims

1.融合胶囊相似性的单样本语义分割方法，其特征在于，该方法包括如下步骤：

S1、特征提取器的构建：

S1.1、导入预训练的特征提取器；

S2、基于胶囊的相似性映射生成器的构建：

S2.3、重塑相似性向量形成相似性矩阵即相似性映射；

S3、卷积预测模块的构建：

步骤S3.1具体过程为：首先用1×1卷积过滤查询图像中级特征，随后，支持图像中级特征需执行三个连续操作：1×1卷积、支持掩码乘积和全局平均池化；然后依照过滤后的查询图像中级特征张量的大小，将运算后的支持图像中级特征和相似性映射都调整成相等尺寸；最后拼接三个同尺寸张量并输入给卷积预测模块；

S3.2、建立卷积预测模块结构；

S3.3、产生卷积预测模块输出即查询图像的预测分割结果；

S3.4、通过相似性映射图和目标分割图间的边缘损失以及预测分割图和目标分割图间的主交叉熵损失共同优化并训练单样本语义分割网络。

2.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S1.1中采用ResNet50作为预训练的特征提取器。

3.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S2.1中分别将查询图像高级特征和掩码后的支持图像高级特征转化成查询胶囊和支持胶囊方法如下：首先，查询图像高级特征和掩码后的支持图像高级特征都是三维张量，其每维大小为(c,h,w)，其中c为通道数，h为高度，w为宽度；将张量分裂成h×w个尺寸为c的向量，即对应张量中所有通道的每个位置；其次，通过挤压函数将这些向量转化成胶囊概念，令x_q，x_s分别代表分裂后的查询向量和支持向量，则上述过程描述为：

该公式的计算结果则为对应的查询胶囊和支持胶囊。

4.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S2.2中计算每个查询胶囊与所有支持胶囊的余弦相似性，取最大值作为每个查询胶囊在相似性向量中的对应元素，其过程形式化为：

其中h和w为特征张量在一个通道中的高与宽，该公式的计算结果为查询胶囊x_q和支持胶囊x_s的余弦相似性；

C_Q＝[c₁,c₂,…,c_q,…,c_h×w]，

其中c_q＝max_{s∈{1,2,…,h×w}}(cos(x_q,x_s)),q＝1,2,…,h×w，c_q表示查询胶囊x_q的相似性值，所有查询胶囊的相似性值组成C_Q即相似性向量。

5.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S2.3中所述重塑相似性向量是将尺寸为h×w的相似性向量C_Q重塑成尺寸为h_C×w_C的相似性矩阵即相似性映射M_Q，其中h_C为相似性矩阵的高，w_C为相似性矩阵的宽，同时满足h_C×w_C＝h×w。

6.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S3.2中所述卷积预测模块结构依次由1个1×1卷积模块，3个3×3卷积模块和1个1×1卷积模块构成，其中最后一个1×1卷积模块用于产生分割结果。

7.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S3.3中通过卷积预测模块输出查询图像预测分割结果，并通过双线性插值法重塑分割结果，最终以原查询图像的尺寸显示预测分割图。

8.如权利要求1所述的融合胶囊相似性的单样本语义分割方法，其特征在于，步骤S3.4中相似性映射M_Q在位置(i,j)上的边缘损失L_i,j定义为：

L_i,j＝T_i,jmax(0,m⁺-‖v_i,j‖)²+λ(1-T_i,j)max(0,‖v_i,j‖-m^-)²，

其中v_i,j为相似性映射M_Q在位置(i,j)的值，‖·‖为取范数操作，如果目标语义类在位置(i,j)出现则T_i,j＝1，否则T_i,j＝0，m⁺＝0.9，m^-＝0.1，λ＝0.5为像素类错误的损失固定权值，总边缘损失定义为相似性映射M_Q中所有位置的边缘损失之和。