CN116468895A

CN116468895A - 一种相似度矩阵引导的少样本语义分割方法及系统

Info

Publication number: CN116468895A
Application number: CN202310636592.5A
Authority: CN
Inventors: 余洪山; 马小菊; 杨振耕; 陈同嘉; 谢同同; 谢理根
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-07-21

Abstract

本发明公开了一种相似度矩阵引导的少样本语义分割方法及系统，该方法首先通过深度学习分别提取支持图像与查询图像特征；接着利用支持图像及其真值标签对计算查询图像和目标类别的相似度矩阵；然后通过掩码平均池化获取目标类别的特征表征作为该目标类原型；将获取的多种特征经过通道注意力处理，输入空洞空间金字塔池化网络，再经过卷积分类输出最终的精细化分割结果；最后通过训练数据对原型特征生成网络以及多特征融合的精细化语义分割模块网络进行优化，利用训练好的模型对新类别的查询图像进行像素级分割。本发明的少样本语义分割方法具有应用简单、通用性强等突出优点。

Description

一种相似度矩阵引导的少样本语义分割方法及系统

技术领域

本发明属于计算机视觉领域，涉及一种相似度矩阵引导的少样本语义分割方法及系统。

背景技术

语义分割旨在分割图像中不同目标并识别每一像素的语义类型，是视觉理解的核心手段之一，其被广泛应用于自主无人系统场景理解、智能制造等领域。在深度学习的驱动下，语义分割精度近年来得到了极大提升，但深度学习需依赖大规模标注样本，面对实际应用中标注样本稀缺的问题，如何实现少样本条件下的高精度语义分割成为亟需突破的难题。少样本分割的目标是在给予少数带标注的支持图像下对查询图像进行准确的分割。目前，现有的少样本分割方法常用元学习范式来实现对新的类别泛化性分割。该方式在训练时的基础数据集中采样一系列的类别来进行分割任务，以模拟测试或推理时新类的少镜头场景，达到“学习去学习”的目的。在此基础上，双分支模型、基于原型网络的嵌入式学习、先验图引导的特征学习等思想被提出应用于少样本分割上。基于双分支指导的模型主要包括“支持分支”和“查询分支”，通过支持分支对样本数据和现有知识进行学习分析，从而指导查询分支快速学习新知识并实现新样本的分割。另一思路依据是原型学习，即根据目标样本的现有知识把样本嵌入到低维空间，将模型的假设空间进行约束再进行学习，从而提升模型的收敛速度与学习效率。此外，考虑到利用支持和查询图像之间的相关性，使用支持图像和查询图像的高级特征余弦相关性的最大值作为先验图，和其他特征进行融合，指导语义分割。但是余弦相关性计算并不能很好地定位出查询图像中目标类别的位置。此外，融合模块极易存在元学习器对训练时见过的类别的偏向问题。

由于少样本语义分割模型中，每一种类别的判别性特征不一样，如何提高不同类别条件下少样本语义分割模型的通用性，是本领域的急需解决的技术问题。

发明内容

本发明提出了一种相似度矩阵引导的少样本语义分割方法及系统，从少量支持标注样本提取相似度矩阵和原型表征，以及对多特征融合，进而实现少样本语义分割。

本发明提供的技术方案如下：

一方面，一种相似度矩阵引导的少样本语义分割方法，包含以下步骤：

步骤1：获取训练、测试的样本数据；

所述训练、测试的样本数据包括目标类别确定的查询图像、支持图像以及对应图像的目标类别语义分割二值化真值掩码；

步骤2：利用经大规模数据集训练好的语义特征矩阵提取网络分别提取支持图像和查询图像的特征矩阵；

步骤3：利用查询图像的特征矩阵、支持图像的特征矩阵和二值化真值掩码，获取查询图像和目标类别的相似度矩阵；

步骤4：构建相似度矩阵引导的少样本语义分割模型；

所述相似度矩阵引导的少样本语义分割模型包括相连的原型特征生成网络和多特征融合的精细化语义分割模块；所述原型特征生成网络计算目标类别的原型特征；所述多特征融合的精细化语义分割模块输出精细化的二值化语义分割结果；

步骤5：训练相似度矩阵引导的少样本语义分割模型；

将训练样本数据中查询图像、支持图像及对应的目标类别语义分割真值掩码得到的特征矩阵和相似度矩阵，输入相似度矩阵引导的少样本语义分割模型，输出查询图像的二值化语义分割结果，利用语义分割损失计算模型参数梯度并更新模型参数，遍历训练样本数据集中的图像，迭代至指定次数，完成训练；

步骤6：对测试样本数据中新的目标类别的查询图像、支持图像及支持图像的目标类别语义分割二值化真值掩码，执行步骤2-3后，将得到的输出数据输入训练好的相似度矩阵引导的少样本语义分割模型，对待分割的新的目标类别的查询图像进行语义分割。

待分割的图像对应的支持图像的目标类别语义分割二值化真值掩码是已知的；

进一步地，所述查询图像和目标类别的相似度矩阵获取流程如下：

步骤3-1：基于与查询图像对应的支持图像的目标类别语义分割二值化真值掩码，提取支持图像的有效区域；

步骤3-2：将查询图像的特征矩阵中所有像素的特征向量和支持图像的有效区域的特征矩阵中所有像素的特征向量输入全连接层，经过全连接层处理后，得到全连接层的输出数据；

步骤3-3：利用二阶函数计算所述支持图像的有效区域的特征矩阵和查询图像特征矩阵的相似度矩阵，并以查询图像特征矩阵和所有支持图像的有效区域中的特征矩阵的相似度矩阵的平均值，作为查询图像和目标类别的相似度矩阵；

所述利用二阶函数计算所述支持图像的有效区域的特征矩阵和查询图像特征矩阵的相似度矩阵，是指利用以下计算公式依次计算查询图像中每个像素与支持图像中有效区域的每个像素的相似度，将查询图像特征矩阵所有像素与支持图像中目标类别的相似度组成查询图像和支持图像的目标类别的相似度矩阵；

d1(i，j)＝(Aw_i)^T(Aw_i)+(Az_j)^T(Az_j)-(Bw_i)^T(Bz_j)+c^Tw_i+c^Tz_j

s1(i，j)＝1-d1(i，j)

其中，w_i表示查询图像特征矩阵中第i个像素的特征向量，z_j表示支持图像有效区域特征矩阵中第j个有效像素的特征向量，A、B均为n^out×nⁱⁿ的矩阵，c是n^out×1的向量，n^out、nⁱⁿ的大小由支持图像中的目标类别确定，Aw_i、Az_j、Bw_i、Bz_j、c^Tw_i、c^Tz_j分别为全连接层的输出数据；d1(i，j)表示计算量；s1(i，j)表示查询图像特征矩阵中第i个像素和支持图像有效区域特征矩阵中第j个像素的相似度，similarity1(i)表示查询图像特征矩阵中第i个像素和支持图像中目标类别的相似度。

进一步地，所述A、B以及c由与查询图像对应的支持图像中的目标类别确定过程如下：

B1：随机赋值A、B以及c；

B2：在与查询图像对应的支持图像中进行采样；

在所有的支持图像以及对应的目标类别语义分割二值化真值掩码中，采集两对，得到目标支持图像、辅助支持图像、目标支持图像的目标类别语义分割二值化真值掩码、辅助支持图像的目标类别语义分割二值化真值掩码；

B3：计算目标支持图像和辅助支持图像目标类别的相似度矩阵；

首先，提取辅助支持图像的有效区域；

将辅助支持图像目标类别语义分割二值化真值掩码为零的像素设为无效像素，将辅助支持图像目标类别语义分割二值化真值掩码不为零的像素设为有效像素，得到辅助支持图像的有效区域；

接着，使用二阶函数进行相似度运算；

d1(i，j)＝(Ax_i)^T(Ax_i)+(Ay_j)^T(Ay_j)-(Bx_i)^T(By_j)+c^Tx_i+c^Ty_j

s1(i，j)＝1-d1(i，j)

其中，x_i表示目标支持图像特征矩阵中第i个像素的特征向量，y_j表示辅助支持图像有效区域的特征矩阵中第j个有效像素的特征向量，A、B分别是n^out×nⁱⁿ的矩阵，c是n^out×1的向量，Ax_i、Ay_j、Bx_i、By_j、c^Tx_i、c^Ty_j分别为全连接层的输出；s1(i，j)表示目标支持图像特征矩阵中第i个像素和辅助支持图像有效区域特征矩阵中第j个像素的相似度，d1(i，j)表示计算量；similarity1(i)表示目标支持图像特征矩阵中第i个像素和辅助支持图像中目标类别的相似度，目标支持图像特征矩阵所有像素的similarity1(i)组成目标支持图像和辅助支持图像目标类别的相似度矩阵；

B4：利用目标支持图像和辅助支持图像目标类别的相似度矩阵，以及目标支持图像的目标类别语义分割二值化真值掩码计算损失函数：

其中，H、W分别表示目标支持图像的长和宽，mask(i)表示目标支持图像的目标类别语义分割二值化真值掩码的第i个像素的值；

B5：计算全连接层参数梯度，并更新全连接层参数；

其中，θ表示全连接层参数，即θ＝{A，B，c}，γ表示梯度下降速率，Loss₁表示目标支持图像的相似度输出和目标支持图像的的目标类别语义分割二值化真值掩码的损失函数，k表示迭代次数；

B6：重复步骤B2-B5，直至所有可能的组合被遍历完毕；

B7：重复步骤B2-B6，直至满足优化迭代次数。

进一步地，所述利用语义特征矩阵提取网络进行语义特征矩阵提取是指：

步骤2-1：图像随机采样；

根据查询图像需要分割的目标类别，选择k个包含目标类别的支持图像和支持图像的目标类别语义分割二值化真值掩码；

步骤2-2：图像特征提取；

利用经ImageNet大规模数据集训练好的语义特征矩阵提取网络分别对支持图像以及查询图像进行特征提取，得到支持图像特征矩阵及查询图像特征矩阵。

语义特征提取网络采用resnet、vgg中的任意一种；

进一步地，所述目标类别的原型特征是对语义特征矩阵提取网络得到的支持图像的特征矩阵进行降维，再计算掩码平均池化，取其平均值获得的；

其中，表示经过降维后的支持图像的特征矩阵的第i个像素的特征向量，表示对支持图像的目标类别语义分割二值化真值掩码进行下采样后的第i个像素，p_j表示第j个支持图像的目标类别的原型特征，p表示目标类别的原型特征，K表示支持图像的数量。

进一步地，所述多特征融合的精细化语义分割模块将查询图像的特征矩阵、查询图像和目标类别的相似度矩阵以及目标类别的原型特征进行拼接，经过通道注意力处理，输入空洞空间金字塔池化网络，再经过卷积分类输出最终的精细化分割结果。

进一步地，所述语义分割损失是逐像素计算交叉熵损失后，并计算所有像素的交叉熵损失的平均值获得的。

进一步地，所述对原型特征生成网络以及多特征融合的精细化语义分割模块网络进行参数更新是采用随机梯度下降算法进行。

另一方面，一种相似度矩阵引导的少样本语义分割系统，包含：

获取训练、测试样本数据单元：所述训练、测试的样本数据包括目标类别确定的查询图像、支持图像以及对应的目标类别语义分割二值化真值掩码；

语义特征矩阵获取单元：利用经大规模数据集训练好的语义特征矩阵提取网络分别对支持图像以及查询图像进行特征提取，分别得到支持图像特征矩阵及查询图像特征矩阵；

相似度矩阵生成单元：利用语义特征矩阵提取网络获得的支持图像和查询图像的特征矩阵，以及按照支持图像对应的目标类别语义分割二值化真值掩码提取支持图像的有效区域，利用相似度计算模块，分别计算查询图像和每一张支持图像的相似度矩阵，取平均值，作为查询图像和目标类别的相似度矩阵；

构建相似度矩阵引导的少样本语义分割模型单元：所述相似度矩阵引导的少样本语义分割模型包括相连的原型特征生成网络和多特征融合的精细化语义分割模块；其中，所述原型特征生成网络基于支持图像的特征矩阵和对应的目标类别语义分割二值化真值掩码，计算目标类别的原型特征；所述多特征融合的精细化语义分割模块，在相似度矩阵引导下输出精细化的二值化语义分割结果；

训练单元：在训练数据里进行采样，将支持图像和真值以及查询图像输入训练好的语义特征矩阵提取网络和相似度计算模块，再将输出结果输入到相似度矩阵引导的少样本语义分割模型，利用输出的二值化分割结果，计算交叉熵损失，采用随机梯度下降算法进行，对相似度矩阵引导的少样本语义分割模型进行参数更新；

分割单元：对测试样本数据中新的目标类别的查询图像、支持图像及支持图像的目标类别语义分割二值化真值掩码，输入训练好的语义特征矩阵提取网络和相似度计算模块，将得到的输出数据输入训练好的相似度矩阵引导的少样本语义分割模型，对待分割的查询图像进行语义分割。

再一方面，一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以实现：

上述的一种相似度矩阵引导的少样本语义分割方法。

有益效果

本发明技术方案提供了一种相似度矩阵引导的少样本语义分割方法及系统，该方法首先通过深度学习分别提取支持图像与查询图像特征；接着利用支持图像及其真值标签对相似度计算模块更新参数，得到查询图像和目标类别的相似度矩阵；然后通过掩码平均池化获取目标类别的特征表征作为该目标类原型；其次将获取的多种特征经过通道注意力处理，输入空洞空间金字塔池化网络，再经过卷积分类输出最终的精细化分割结果；最后通过训练数据对原型特征生成网络以及多特征融合的精细化语义分割模块网络进行优化，利用训练好的模型对新类别的查询图像进行像素级分割。本发明的少样本语义分割方法具有应用简单、通用性强等突出优点

本发明提供的技术方案可实现仅需一次训练，即可实现语义分割模型的在其他类别上的通用化应用。

与现有的少样本语义分割方法相比，本发明的先进性体现在：

1)提出了一种查询矩阵和目标类的相似度矩阵计算方法，相较于无可学习参数的相似度矩阵生成方式，识别了目标类的具有判别性的特征，大大地提高了通用性；

2)提出了一种多特征融合的精细化语义分割模块，缓解元学习器对训练时见过的类别的偏向问题，对相似度矩阵的大致定位进行更细致的分割，得到精细化的语义分割结果。

附图说明

图1为本发明技术方案所述方法执行流程示意图；

图2为本发明技术方案所述方法总体框图。

具体实施方式

以下将结合附图对本发明做进一步详细说明。

本发明实施例所涉及的数据集为pascal数据集，目标类别是标注信息很少的待分割的类，支持图像和查询图像均包含目标类别，支持图像是带有标注的图像，查询图像是待分割的图像。

一种相似度矩阵引导的少样本语义分割方法，如图1-图2所示，具体步骤如下：

步骤1：获取训练、测试的样本数据；

将pascal划分为训练数据集和测试数据集；设置少样本语义分割的训练和测试类别集合C_train、C_test，采样查询样本的图像-真值对Q＝(I_q,M_q)，以及确定目标类别，采样目标类别的k个支持样本的 I_q分别表示支持图像和查询图像，/>M_q分别表示支持和查询图像的目标类别的语义分割真值掩码；

所述利用语义特征矩阵提取网络进行语义特征矩阵提取是指：

步骤2-1：图像随机采样；

步骤2-2：图像特征提取；

语义特征提取网络采用resnet、vgg中的任意一种；

步骤3：获取查询图像和目标类别的相似度矩阵；

所述查询图像和目标类别的相似度矩阵获取流程如下：

d1(i，j)＝(Aw_i)^T(Aw_i)+(Az_j)^T(Az_j)-(Bw_i)^T(Bz_j)+c^Tw_i+c^Tz_j

s1(i，j)＝1-d1(i，j)

其中，w_i表示查询图像特征矩阵中第i个像素的特征向量，z_j表示支持图像有效区域特征矩阵中第j个有效像素的特征向量4A、B分别是n^out×nⁱⁿ的矩阵，c是n^out×1的向量，A、B以及c由支持图像中的目标类别确定，Aw_i、Az_j、Bw_i、Bz_j、c^Tw_i、c^Tz_j分别为全连接层的输出数据；d1(i，j)表示计算量；s1(i，j)表示查询图像特征矩阵中第i个像素和支持图像有效区域特征矩阵中第j个像素的相似度，similarity1(i)表示查询图像特征矩阵中第i个像素和支持图像中目标类别的相似度。

所述A、B以及c由与查询图像对应的支持图像中的目标类别确定过程如下：

B1：随机赋值A、B以及c；

B2：在与查询图像对应的支持图像中进行采样；

首先，提取辅助支持图像的有效区域；

接着，使用二阶函数进行相似度运算；

d1(i，j)＝(Ax_i)^T(Ax_i)+(Ay_j)^T(Ay_j)-(Bx_i)^T(By_j)+c^Tx_i+c^Ty_j

s1(i，j)＝1-d1(i，j)

B5：计算全连接层参数梯度，并更新全连接层参数；

B6：重复步骤B2-B5，直至所有可能的组合被遍历完毕；

B7：重复步骤B2-B6，直至满足优化迭代次数。

步骤4：构建相似度矩阵引导的少样本语义分割模型；

所述目标类别的原型特征是对语义特征矩阵提取网络得到的支持图像的特征矩阵进行降维，再计算掩码平均池化，取其平均值获得的；

所述多特征融合的精细化语义分割模块将查询图像的特征矩阵、查询图像和目标类别的相似度矩阵以及目标类别的原型特征进行拼接，经过通道注意力处理，输入空洞空间金字塔池化(ASPP)网络，再经过卷积分类输出最终的精细化分割结果。

步骤5：训练相似度矩阵引导的少样本语义分割模型；

本实施例还提供一种相似度矩阵引导的少样本语义分割系统，包含：

具体各个模块的实现过程请参照上述方法的内容，在此不再赘述。应该理解到，上述功能模块的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本实施例提供一种电子设备，包括：

一个或多个处理器；

存储了一个或多个计算机程序的存储器；

其中，所述处理器调用所述计算机程序以实现：上述的一种相似度矩阵引导的少样本语义分割方法。

本实施例还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以实现：

上述的一种相似度矩阵引导的少样本语义分割方法。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种相似度矩阵引导的少样本语义分割方法，其特征在于，包含以下步骤：

步骤1：获取训练、测试的样本数据；

步骤4：构建相似度矩阵引导的少样本语义分割模型；

步骤5：训练相似度矩阵引导的少样本语义分割模型；

2.根据权利要求1所述方法，其特征在于，所述查询图像和目标类别的相似度矩阵获取流程如下：

d1(i，j)＝(Aw_i)^T(Aw_i)+(Az_j)^T(Az_j)-(Bw_i)^T(Bz_j)+c^Tw_i+c^Tz_j

s1(i，j)＝1-d1(i，j)

3.根据权利要求2所述得方法，其特征在于，所述A、B以及c由与查询图像对应的支持图像中的目标类别确定过程如下：

B1：随机赋值A、B以及c；

B2：在与查询图像对应的支持图像中进行采样；

首先，提取辅助支持图像的有效区域；

接着，使用二阶函数进行相似度运算；

d1(i，j)＝(Ax_i)^T(Ax_i)+(Ay_j)^T(Ay_j)-(Bx_i)^T(By_j)+c^Tx_i+c^Ty_j

s1(i，j)＝1-d1(i，j)

其中，x_i表示目标支持图像特征矩阵中第i个像素的特征向量，y_j表示辅助支持图像有效区域的特征矩阵中第j个有效像素的特征向量；

B5：计算全连接层参数梯度，并更新全连接层参数；

B6：重复步骤B2-B5，直至所有可能的组合被遍历完毕；

B7：重复步骤B2-B6，直至满足优化迭代次数。

4.根据权利要求1所述方法，其特征在于，所述利用语义特征矩阵提取网络进行语义特征矩阵提取是指：

步骤2-1：图像随机采样；

步骤2-2：图像特征提取；

5.根据权利要求1所述方法，其特征在于，所述目标类别的原型特征是对语义特征矩阵提取网络得到的支持图像的特征矩阵进行降维，再计算掩码平均池化，取其平均值获得的；

其中，表示经过降维后的支持图像的特征矩阵的第i个像素的特征向量，/>表示对支持图像的目标类别语义分割二值化真值掩码进行下采样后的第i个像素，p_j表示第j个支持图像的目标类别的原型特征，p表示目标类别的原型特征，K表示支持图像的数量。

6.根据权利要求1所述方法，其特征在于，所述多特征融合的精细化语义分割模块将查询图像的特征矩阵、查询图像和目标类别的相似度矩阵以及目标类别的原型特征进行拼接，经过通道注意力处理，输入空洞空间金字塔池化网络，再经过卷积分类输出最终的精细化分割结果。

7.根据权利要求1所述方法，其特征在于，所述语义分割损失是逐像素计算交叉熵损失后，并计算所有像素的交叉熵损失的平均值获得的。

8.根据权利要求1所述方法，其特征在于，所述对原型特征生成网络以及多特征融合的精细化语义分割模块网络进行参数更新是采用随机梯度下降算法进行。

9.一种相似度矩阵引导的少样本语义分割系统，其特征在于，包含：

10.一种可读存储介质，其特征在于：存储了计算机程序，所述计算机程序被处理器调用以实现：

权利要求1-8任一项所述的一种相似度矩阵引导的少样本语义分割方法。