CN116129226A

CN116129226A - 一种基于多原型混合模块的少样本目标检测方法及装置

Info

Publication number: CN116129226A
Application number: CN202310372187.7A
Authority: CN
Inventors: 周健聪; 梅继林; 胡瑜; 李玮; 高少波
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-16
Anticipated expiration: 2043-04-10
Also published as: CN116129226B

Abstract

本发明提供了一种基于多原型混合模块的少样本目标检测方法及装置。首先通过骨干网络提取出支持图像和查询图像的特征信息，然后使用期望最大化算法对支持特征进行处理，生成多个具有代表性信息的原型向量，再将所有的原型向量分别与查询特征进行特征聚合，完成对查询特征相关部分的激活并将其输入到后续的检测模块中，从而实现仅使用少量样本就能快速学习新事物的效果。同时，该模型在训练过程中采用了二类对比方法来进一步增强对新类别物体的学习能力，进而优化少样本目标检测的检测性能。本发明解决了现有少样本目标检测中存在的支持特征代表性不足、特征聚合方法效果不显著等问题，提高了少样本目标检测对于新类别物体的检测性能。

Description

一种基于多原型混合模块的少样本目标检测方法及装置

技术领域

本发明涉及深度学习目标检测和少样本学习领域，具体涉及一种基于多原型混合模块的少样本目标检测方法及装置。

背景技术

目标检测在机器人和自动驾驶领域中都起着重要作用。自深度学习技术发展以来，关于目标检测的研究取得了极大的进步。然而，当前最先进的方法需要大量数据来确保其性能和通用性。而庞大的数据收集和精确的标注需要付出高昂的代价，例如，自动驾驶中的Corner case。相反，人类幼儿只需要很少的例子就能快速识别新事物。少样本学习正是用来缩小这一差距的关键方法，近年来，如何在目标检测中加入少样本学习得到了越来越多的关注且快速发展。少样本目标检测旨在通过有限的训练数据（例如1-10个样本）学习得到泛化模型。一般来说，目标检测任务比纯分类任务更困难，因为它除了分类外还需要对物体进行定位。即使少样本目标检测的研究已经取得了进展，但其性能仍大大低于传统方法。面临的挑战是：（1）检测新类的准确率远低于基类；（2）检测基类得到的精度也低于使用传统方法测得的结果。

以往的研究通常使用元学习方法，研究重点在于如何从查询和支持图像中有效地聚合特征图，使查询特征快速学习到支持特征的类别信息。诸如构建类别原型、计算它们之间的相似度和特征图拼接等方法都已被提出，这些研究用不同的聚合技术，设计了许多有效的模型。然而，在元学习方法中，对于查询图像的检测性能不仅与特征聚合方法有关，还与支持特征形成的原型向量有关。

发明内容

针对现有技术的不足，本发明提出了一种基于多原型混合模块的少样本目标检测方法及装置；设计了多原型混合模块将输入的支持特征转化为更具代表性信息的混合原型，同时设计了简洁有效的特征聚合方法对查询特征进行激活，还引入了二类对比训练策略，使其能够实现仅使用少量样本就能快速学习新类别物体。

为实现上述技术目的，该方法是通过以下技术方案来实现的：

根据本申请实施例的第一方面，提供一种基于多原型混合模块的少样本目标检测方法，该方法包括如下步骤：

（1）将参与训练的数据集中所有类别分成基类或新类；将训练过程分为一阶段和二阶段，一阶段使用只包含基类的数据集进行训练，二阶段使用只包含新类的数据集进行微调；在每个训练阶段中，均采用二类对比方法进行训练，都将数据集二次划分为查询集和支持集；从查询集中取出的图像称为查询图像，从支持集中取出的图像称为支持图像；

（2）将从支持集中取出的支持图像和从查询集中取出的查询图像输入权重共享的骨干网络中进行特征提取，生成支持特征和查询特征；所述支持特征在多原型混合模块中通过期望最大化算法，转化为多个原型向量，用以代表支持图像的物体特征；然后将多个原型进行上采样处理，扩充成与查询特征一样的形状，然后分别与查询特征进行拼接并输入到卷积层，生成注意力特征向量；同时，多个原型还分别与查询特征进行通道宽度的乘积，生成多个概率图；然后将多个注意力特征向量通过相加合并成一个注意力特征向量，即唯一激活后的特征向量；多个概率图也通过相加的方式合并成一个概率图，即唯一的概率图；

（3）将唯一激活后的特征向量与唯一的概率图进行拼接并输入到卷积层，生成最终的激活后特征向量；将激活后的特征向量输入到区域候选网络生成目标候选框；然后将生成的目标候选框和真实标签框经过ROI Pooling操作筛选出置信度分数大于0.5的目标候选框；最后将筛选出的目标候选框输入到分类器和回归器中，完成对目标对象的分类任务和定位任务。

进一步地，所述步骤（1）中，所述支持图像需要经过预处理，裁剪出真实标注框内的目标并将图像尺寸调整为

像素，如果裁剪出的目标图像为非正方形，则通过在较短边上用零像素填充来实现尺寸调整；所述查询图像也需经过预处理，将最短的边限制在600像素，最长的边限制在1000像素，一张查询特征只有一种类别的物体。

进一步地，所述步骤（1）中，所述二类对比方法具体为：对每一张查询图像配备两张支持图像，其中一张包含与查询图像具有相同类别的物体，称为正支持图像；另一张包含与查询图像具有不同类别的物体，称为负查询图像；整个训练过程分为正分支和负分支，正分支由正支持图像和查询图像作为输入，负分支由负支持图像和查询图像作为输入。

进一步地，所述步骤（2）中生成的支持特征，其维度为（H, W, C），视为C维的特征集合。

进一步地，所述步骤（2）中的期望最大化算法的步骤分为E-step和M-step，在E-step中先随机初始化多个原型向量，然后通过距离函数来算出支持特征和每一个初始化原型向量之间的距离，再对每个原型算出来的距离做softmax处理，得到对应的期望权重；在M-step中将E-step得到的每一个期望权重分别与支持特征相乘，再除以其期望权重本身，实现期望最大化，得到更新后的原型向量。

进一步地，所述步骤（2）中，所生成注意力特征向量的个数等于生成的概率图的个数，且两者都等于用来表示支持图像的原型向量的个数。

进一步地，所述步骤（3）中将激活后的特征向量输入到区域候选网络生成目标候选框具体为：从正分支和负分支中都会各自生成最终激活特征，正分支的激活特征输入到RPN网络生成正候选框，负分支的激活特征输入到RPN网络生成负候选框。

进一步地，所述步骤（3）中，所述ROI Pooling操作只会将查询特征所属类别的真实标注框加入，并丢弃负支持特征所属类别的真实标注框。

本发明实施例第二方面提供了一种基于多原型混合模块的少样本目标检测装置，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述基于多原型混合模块的少样本目标检测方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于多原型混合模块的少样本目标检测方法。

本发明的有益效果是：本发明解决了现有少样本目标检测中存在的支持特征代表性不足、特征聚合方法效果不够好等问题，从而在一定程度上提高了少样本目标检测对于新类别物体的检测性能。相比以往的少样本目标检测模型，该方法提出的多原型混合模块应用简单、效果明显，能有效提高支持特征的实例代表性并设计了更佳的特征聚合方式，因此在少样本目标检测中对于新类别物体也具有更好的检测性能。

附图说明

图1为本发明方法的训练流程图；

图2为本发明方法的模型框架图；

图3为本发明方法的模型框架中检测模块内部结构图；

图4为本发明的数据预处理效果图；

图5为本发明在MS COCO数据集上与其他现有先进方法的测试性能比较图；

图6为本发明基于多原型混合模块的少样本目标检测装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合附图和实施例，对本发明进一步详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

如图1所示，本发明提供的一种基于多原型混合模块的少样本目标检测方法，该方法包括如下步骤：

（1）将参与训练的数据集中的所有类别分成两类：基类和新类，不存在既属于基类又属于新类的类别；

（2）将训练过程分为一阶段和二阶段，一阶段使用只包含基类的数据集进行训练，二阶段使用只包含新类的数据集进行微调。同时在每一个训练阶段中，都将数据集二次划分为查询集和支持集，查询集和支持集的类别空间始终保持一致。从查询集中取出的图像称为查询图像，从支持集中取出的图像称为支持图像。二阶段的微调过程中每个类别仅有K个标注数据，因此新类的数据集比较小。同时，K个实例是指K个标注数据，而不是K张图像，一张图像可能包含多个类别的实例。

在整个训练过程中，都采用二类对比方法进行训练。具体地，在每个训练阶段，针对每一张查询图像

都会配备两张支持图像，其中一张与查询图像具有相同的类别，称为正支持图像

；而另一张与查询图像具有不同的类别，称为负支持图像

。在基类训练阶段，训练数据来自基类数据集

，输入图片

，均从基类数据集中抽选。相对应地，在新类数据集

中也有

。两个阶段之间的差异在于，一阶段中的样本数量充足，但二阶段中每个类的实例数量限制为K。任务的目标是将从足够的基类数据中学习到的知识转移到新类。

对于每个样本

，

是一个目标实例，

包括目标类别

和真实标注框

；在推理过程中，少样本目标检测器检测图像中的潜在目标。

（3）模型输入：将支持图像和查询图像输入权重共享的骨干网络中进行特征提取，生成支持特征和查询特征。在输入前遇到的图像进行预处理，参见图4的数据预处理效果图，支持图像需要经过预处理，裁剪出真实标注框内的目标并将图像尺寸调整为

像素。如果裁剪出的目标图像非正方形，则通过在较短边上用零像素填充来实现尺寸调整。对于查询图像的处理，该方法会将最短的边限制为600像素，最长的边限制为1000像素，一张查询特征通常只会有一种类别的物体。

（4）在多原型混合模块进行处理：支持特征在多原型混合模块中通过期望最大化算法（EM算法），转化为多个原型向量，用以代表支持图像的物体特征，参见图2和图3。

原型模块通过期望最大化算法将支持特征转化为原型向量。支持特征经过处理，可以理解成是多个原型的线性叠加，而不是原始的单个特征向量，如公式（1）。在训练过程中，支持特征

由骨干网络生成，并被视为C维样本的集合，其中，C表示特征通道的数量，H表示输入图片的高，W表示输入图片的宽，R表示输入特征。同时，随机初始化原型

；

（1）；

其中，

表示原型向量，B表示H与W的乘积，C表示特征通道的数量，N表示支持图像的原型个数。

表示每个原型的权重系数，并且满足

，

。

表示第

个原型向量。

之后，对支持特征使用期望最大化算法，估计出代表它的多个原型向量

，该过程包括Expection-step和Maximization-step(下面以E-step和M-step代称)。在E-step中，使用距离函数

计算出支持特征

的期望；如公式（2）-公式（3）：

（2）

（3）

此处距离函数

选择了余弦距离，

为矩阵转置，

为缩放因子，

表示支持特征

的期望，

是从

和

中抽取的第i个特征。

在M-step中，将从E-step的公式（3）里得到的期望

用于更新

，如公式（4）：

（4）

在E-step和M-step之间进行多次迭代后，原型向量

生成，并且将被用来激活查询图像中的相关特征。一个支持示例可以生成N个原型，每个原型可以用来表示支持图像中目标区域及其周围区域的特征，因此多个原型的表示方式比单个原型更强。

（5）对多个原型与查询特征进行特征聚合：将多个原型进行上采样处理，扩充成与查询特征一样的形状，然后分别与查询特征进行拼接并输入到卷积层，生成注意力特征向量。同时，多个原型还分别与查询特征进行通道宽度的乘积，生成多个概率图。

在训练阶段，首先对多个原型向量进行上采样，使其形状与查询特征保持一致。然后，将多个原型向量分别与查询特征拼接起来，并输入到卷积层，如公式（5）：

（5）

其中，

为训练过程中得到的中间特征，函数

执行上采样和拼接的操作，

是卷积层，

表示查询特征。

（6）生成概率图：将多个注意力特征向量通过相加合并成一个注意力特征向量。多个概率图也通过相加的方式合并成一个概率图；

如图2所示，查询特征需要与多个原型的元素相乘，以生成相应数量的概率图，如公式（6）：

（6）

其中，

表示channel-wise的乘积，

表示生成的概率图，

表示原型个数，

表示查询特征。

（7）生成激活后特征：将唯一的激活后的特征向量与唯一的概率图进行拼接，然后输入到卷积层，生成最终的激活后特征向量。

通过求和将从两个分支获得的N个注意力特征向量和概率图集成到一个特征向量和一个概率图中。处理后的特征向量和概率图被连接并输入到卷积层，如公式（7）：

（7）

其中，

为训练过程中得到的中间特征，

表示拼接，

也是一个卷积层。

（8）将激活后特征向量输入到区域候选网络（Region Proposal Network，RPN）生成目标候选框；之后的训练过程就是常规的Faster R-CNN的检测过程。

（9）将生成的目标候选框和真实标签框经过ROI Pooling操作筛选出置信度分数大于0.5的目标候选框。

由于本发明在训练中使用了二类对比方法，因此正分支会产生正类别的候选框，负分支会产生负类别的候选框。检测器需要根据查询图像的类别，识别出正类别的同时，将负类别视为背景类。

（10）将置信度分数高的目标候选框输入到分类器和回归器中，以完成对目标对象的分类任务和定位任务。

从两个分支中生成的候选框预测坐标和类别分数被输入到预测层，用于预测目标的类别和位置。在训练过程中，我们利用每个选定方案的多任务损失作为所有边界框损失，有如下公式（8）：

（8）

其中，

表示总的损失函数，

表示正分支匹配损失，

表示负分支匹配损失，

表示正分支回归损失，

表示负分支回归损失；

和

采用平滑L1损耗，而

和

采用二元交叉熵；完整训练过程的参见图1。

为了验证本发明的有效性，本发明PMR-CNN与目前先进的少样本目标检测方法FRON-ft-full、Deformable-DETR-ft-full、TFA w/fc、TFA w/cos、Attention RPN(基线)、FSRW、MetaDet、Meta R-CNN、MPSR、FSCE、SRR-FSD在MS COCO数据集上进行了比较，详细结果参见图5。本发明PMR-CNN遵循表中现有方法在MS COCO数据集上的数据划分，并且采用统一的评估标准。实验结果表明，本发明PMR-CNN的检测性能在MS COCO数据集上优于现有的先进方法，每个类别样本个数为10时在AP/AP50/AP75指标上分别至少超出1.8%/2.1%/0.8%。这表明本方法有效地提升了模型对于少样本目标检测的检测性能。

参见图6，本发明实施例提供的一种基于多原型混合模块的少样本目标检测装置，包括一个或多个处理器，用于实现上述实施例中的一种基于多原型混合模块的少样本目标检测的方法。

本发明基于多原型混合模块的少样本目标检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明基于多原型混合模块的少样本目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多原型混合模块的少样本目标检测的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于多原型混合模块的少样本目标检测方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（1）中，所述支持图像需要经过预处理，裁剪出真实标注框内的目标并将图像尺寸调整为

3.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（1）中，所述二类对比方法具体为：对每一张查询图像配备两张支持图像，其中一张包含与查询图像具有相同类别的物体，称为正支持图像；另一张包含与查询图像具有不同类别的物体，称为负查询图像；整个训练过程分为正分支和负分支，正分支由正支持图像和查询图像作为输入，负分支由负支持图像和查询图像作为输入。

4.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（2）中生成的支持特征，其维度为（H, W, C），视为C维的特征集合。

5.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（2）中的期望最大化算法的步骤分为E-step和M-step，在E-step中先随机初始化多个原型向量，然后通过距离函数来算出支持特征和每一个初始化原型向量之间的距离，再对每个原型算出来的距离做softmax处理，得到对应的期望权重；在M-step中将E-step得到的每一个期望权重分别与支持特征相乘，再除以其期望权重本身，实现期望最大化，得到更新后的原型向量。

6.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（2）中，所生成注意力特征向量的个数等于生成的概率图的个数，且两者都等于用来表示支持图像的原型向量的个数。

7.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（3）中将激活后的特征向量输入到区域候选网络生成目标候选框具体为：从正分支和负分支中都会各自生成最终激活特征，正分支的激活特征输入到RPN网络生成正候选框，负分支的激活特征输入到RPN网络生成负候选框。

8.根据权利要求1所述的基于多原型混合模块的少样本目标检测方法，其特征在于，所述步骤（3）中，所述ROI Pooling操作只会将查询特征所属类别的真实标注框加入，并丢弃负支持特征所属类别的真实标注框。

9.一种基于多原型混合模块的少样本目标检测装置，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1~8任一项所述的基于多原型混合模块的少样本目标检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1~8中任意一项所述的基于多原型混合模块的少样本目标检测方法。