CN116129176A

CN116129176A - 一种基于强关联动态学习的少样本目标检测方法

Info

Publication number: CN116129176A
Application number: CN202211609390.3A
Authority: CN
Inventors: 王翀; 龚益玲; 刘伟杰; 陈松
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-16

Abstract

本发明公开了一种基于强关联动态学习的少样本目标检测方法，包括以下步骤：S1：数据采样：在数据集MS‑COCO中挑选60个类别对应的数据样本作为基础类数据集D_base，挑选剩下的20个类别对应的数据样本作为新类别数据集D_novel；S2：提取特征；S3：重加权支持特征图；通过本发明中设计的“重加权原型”和“动态关联学习”模块，在传统的基于元学习的少样本目标检测方法的基础上，在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中，这种依赖关系会相对修正特征学习的偏差，得到更具泛化性能的图像特征，从而进一步提升少样本检测模型的检测性能。

Description

一种基于强关联动态学习的少样本目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及基于强关联动态学习的少样本目标检测方法。

背景技术

目标检测(Object Detection)的任务是指找出图像中所有感兴趣的目标(物体)，确定目标所属的类别以及在图像中的位置。目标检测是计算机视觉和数字图像处理的一个热门方向，该技术目前已广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉技术处理目标检测问题对于减少人力资本的消耗，具有重要的现实意义。

处理目标检测问题需要使用大量被标注好的数据样本构成数据集，将其用于模型训练，其中每个数据样本包括一张图片和图片上物体位置和类别的标注信息。在实际的生产条件下，由于人工对图片进行标注会耗费很多的人力物力，因此目标检测往往会存在标注数据样本不足的问题，少样本目标检测(Few-Shot Object Detection,FSOD)解决的就是这样的一个问题。FSOD，顾名思义是指利用少量的有标注的数据样本组成数据集，训练一个适用于目标检测任务的模型，该模型接受需要预测的图片，输出对图片中目标所属类别和位置的判断。FSOD要求该模型具有一定泛化的能力，使在基础类别数据样本上训练的模型可以很快地应用于新类别数据样本的检测。具体来说，少样本目标检测的数据集通常分为两部分：具有大量样本的基础类数据集D_base和仅具有少量样本的新类别数据集D_novel，其中基础类数据集的样本数量远远大于新类别数据集。FSOD的目标是在D_base上训练一个模型j(；θ)，并使模型能够快速适用于新类别数据集，其中θ是这个模型中可学习的参数，决定了检测结果的好坏。然而，D_base和D_novel之间极端的数据量不平衡情况，会造成在D_base上训练的模型容易在D_novel上过拟合，该问题可以通过元学习(meta-learning)方法解决。

文献Meta R-CNN[1](Xiaopeng Yan，Ziliang Chen，Anni Xu，Xiaoxi Wang，Xiaodan Liang，and Liang Lin.2019.Meta R-CNN：Towards General SolverforInstance-Level Low-Shot Learning.In International Conference on ComputerVision(ICCV).9577-9586.)提出了一个利用元学习来解决少样本目标检测问题的经典方法。它的每个训练批次(batch)中包括一个支持集

其中

表示支持集中类别c对应的图片，

是图片

对应的位置和类别标签。C表示数据集中类别的数目，取值为60或者80。除了支持集之外，每个训练批次还包括一个查询集

其中

表示查询集中第i张图片，

表示图片

对应的位置和类别标签，I表示每个批次中数据样本的数目，取值一般为4。由于在支持集中每个类别只有少量数据样本，因此该模型

能够快速有效地适应Dnovel。

然而，上述Meta R-CNN的方法只是利用了支持集中的图片生成类别注意力向量(claS-attentive vectors)，将其与查询图片

特征简单结合得到检测结果。本质上还是让支持图片和查询图片相互独立地学习，一旦支持图片的特征没有学习到正确的语义信息，会给查询图片的特征造成错误的引导，从而降低目标检测任务的检测精度。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于强关联动态学习的少样本目标检测方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于强关联动态学习的少样本目标检测方法，包括以下步骤：

S1：数据采样：在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集D_base，挑选剩下的20个类别对应的数据样本作为新类别数据集D_novel；

S2：提取特征：首先将支持集中的图片尺寸统一调整为224×224，再使用残差网络(作为特征提取器Fexr(*)对支持图片

提取特征，获得一个三维的特征图，在特征图q_n上获取到每个候选区域对应的特征图

S3：重加权支持特征图：首先使用卷积网络对支持特征图s_c进行下采样，利用non-local网络计算支持图片特征图s_c和查询图片特征图r_n，i在空间上的关联，加到原始的支持图片特征图s_c，得到重加权过的支持特征图

S4：计算类别注意力向量：将上一步得到的重加权支持图片特征图

经过全局平均池化，将空间尺寸压缩为1×1，将结果输入到Sigmoid激活函数δ(*)得到类别注意力向量

向量的维度为2048，具体计算方式为

S5：特征融合：将步骤S2得到的候选区域特征图r_n，i经过全局平均池化，将其空间尺寸压缩为1×1得到候选区域特征向量

向量的维度为2048，将候选区域特征向量

与类别注意力向量a_c沿通道维度相乘和相减得到两个2048维的向量

和

然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维，这两个向量再和原始的候选区域特征向量

拼接起来得到一个融合后的候选区域特征向量

融合后向量的维度为4096。

S6：预测候选区域的类别和坐标偏移：将融合后的候选区域特征向量

输入到分类头F^cls(*)以及回归头F^box(*)，分类头和回归头分别是一个全连接层FC，分类头输出候选区域被预测为每个类别的概率

80是数据集中类别的数量，回归头输出候选区域被预测相对于真实坐标的偏移量；

S7：动态图卷积：将步骤S3得到的下采样之后的支持特征图s_c

经过全局平均池化，得到支持特征向量

计算支持集中所有特征向量

和查询图片

上所有候选区域特征向量

的相似度，得到相似度矩阵A。

将每个候选区域被预测的类别概率分布

和支持集中图片对应的类别标签作为输入图节点，相似度矩阵A作为图的邻接矩阵构建图；

然后将输入图节点经过2层的图卷积操作，得到更新后的候选区域预测概率

根据它和步骤S2得到的每个候选区域真实类别标签计算交叉熵损失函数L_drl。

S8：训练网络：步骤S2使用的候选区域网络(RPN)会产生损失L_rpn，步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较，分别使用交叉熵和Smooth L1损失函数计算损失L_cls和L_box；

于是总的损失L＝L_rpn+L_cls+L_box+L_drl，损失L通过随机梯度下降算法(SGD)训练模型，一共训练20轮停止，得到在基础类数据集D_base上训练好的基础模型；

S9：微调网络：在步骤S1中组成的基础类数据集D_base和新类别数据集D_novel中，每个类别随机采样10个数据样本组成少样本数据集，在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法，再次训练10轮，保存模型参数和支持集中每个类别的支持特征图

S10：图像推理：将需要预测的新类别图片作为查询集，上个步骤S保存的支持特征图作为支持集，重复步骤S2到步骤S6，得到模型对图片上所有物体位置和类别的预测。

进一步地，步骤S1具体包括：每个数据样本由一张图片和图片中物体的位置和类别标签构成，基础类数据集数据样本的数量远远大与新类别数据集的数量；

在基础类数据集D_base中每个类别都随机挑选200个数据样本用于构成支持集，每个训练批次(batch)需要在每个类别对应的200个数据样本中随机挑选一个构成支持集

其中：

表示支持集中类别c对应的图片，

是图片

对应的位置和类别标签，C表示数据集中类别的数目60。

进一步地，步骤S1还包括：在基础类数据集D_base中随机挑选4个数据样本构成查询集

其中

表示查询集中第n张图片，

表示图片

对应的位置和类别标签，N表示每个批次中数据样本的数目4。

进一步地，在步骤S2中：提取特征后得到的三维的特征图(feature map)

其中，特征图的宽和高为14，通道数为1024；

此外，使用特征提取器F^exr(*)对查询图片

提取特征得到特征图

H和W分别表示特征图的高和宽，由输入图片的尺寸决定，通道数为1024；

进一步地，在步骤S2中：将查询图片

的特征图q_n输入到候选区域网络(Region Proposal Network，RPN)得到128个候选区域的位置坐标以及它们对应的真实标签，然后将特征图q_n和位置坐标输入到RoIAlign网络中；

在特征图q_n上获取到每个候选区域对应的特征图

其中，r_n，i表示查询图片

的第i个候选区域的特征图，特征图r_n，i的宽和高为7，通道数为2048，查询图片

上得到的候选区域数量为128，具体计算方式为：

进一步地，步骤S3具体为：

首先使用卷积网络对支持特征图s_c进行下采样，使它的尺寸由14×14×1024变为7×7×2048；

再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联；

使用1×1的卷积操作g(*)计算候选区域特征图r_n，i上每个点的权重_g(r_n，i)；

然后使用点乘操作f(*)得到支持图片特征图s_c和候选区域特征图r_n，i的相似度并归一化；

将其乘上查询图片特征图上每个特征点的权重g(r_n，i)，就得到支持图片特征图s_c和查询图片特征图r_n，i在空间上的关联，然后加到原始的支持图片特征图s_c，得到重加权过的支持特征图

具体计算方式为：

相比于现有技术，本发明的有益效果在于：

使用动态GCN对特征间的依赖关系(支持特征向量和候选区域特征向量之间)进行建模，将支持图片对应的类别标签作为锚节点，查询图片上候选区域预测的概率分布作为漂移节点，支持图片特征向量和候选区域特征向量之间的相似度作为邻接矩阵，从而隐式地改进分类表现。

动态GCN在训练期间，将进一步受到通过更新后的类别概率分布得到的分类损失的限制，这种损失增加了候选区域特征向量和支持特征向量之间的隐含约束，这种隐含约束体现在，损失值的大小间接体现了当前少样本检测模型拟合效果的好坏，通过让查询图片上的候选区域特征向量不断逼近自己同类的支持图像特征向量，远离与自己异类的支持图像特征向量，我们可以得到一个检测效果更为优异的模型。

具体来说，如果某一对候选区域特征向量和支持图像特征向量具有很高的相似性，那么这两种节点之间就会有很强的联系。总之，漂移节点倾向于在锚节点所属的同一类别给出高置信度，这使得预测的概率分布接近支持图片的标签。如果预测正确，损失L_drl将会很小。否则，它会对这种错误的相关性进行惩罚，促使模型在特征空间中增加它们之间的差距。

通过本发明中设计的“重加权原型”和“动态关联学习”模块，在传统的基于元学习的少样本目标检测方法的基础上，在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中，这种依赖关系会相对修正特征学习的偏差，得到更具泛化性能的图像特征，从而进一步提升少样本检测模型的检测性能。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例一

基于强关联动态学习的少样本目标检测方法，包括以下步骤：

S2：提取特征：首先将支持集中的图片尺寸统一调整为224×224，再使用残差网络(作为特征提取器F^exr(*)对支持图片

向量的维度为2048，具体计算方式为

向量的维度为2048，将候选区域特征向量

和

拼接起来得到一个融合后的候选区域特征向量

融合后向量的维度为4096。

S7：动态图卷积：将步骤S3得到的下采样之后的支持特征图

经过全局平均池化，得到支持特征向量

计算支持集中所有特征向量

和查询图片

上所有候选区域特征向量

的相似度，得到相似度矩阵A。

将每个候选区域被预测的类别概率分布

其中，网络在步骤S2前进行构建。

实施例二

在实施例一的基础上，步骤S1具体包括：每个数据样本由一张图片和图片中物体的位置和类别标签构成，基础类数据集数据样本的数量远远大与新类别数据集的数量；

其中.

表示支持集中类别c对应的图片，

是图片

对应的位置和类别标签，C表示数据集中类别的数目60；

步骤S1还包括：在基础类数据集D_base中随机挑选4个数据样本构成查询集

其中

表示查询集中第n张图片，

表示图片

耐应的位置和类别标签，N表示每个批次中数据样本的数目4；

在步骤S2中：提取特征后得到的三维的特征图(feature map)

其中，特征图的宽和高为14，通道数为1024；

此外，使用特征提取器F^exr(*)对查询图片

提取特征得到特征图

在步骤S2中：将查询图片

的特征图qn输入到候选区域网络(RegionProposal Network，RPN)得到128个候选区域的位置坐标以及它们对应的真实标签，然后将特征图q_n和位置坐标输入到RoIAlign网络中；

在特征图q_n上获取到每个候选区域对应的特征图

其中，r_n，i表示查询图片

上得到的候选区域数量为128，具体计算方式为：

步骤S3具体为：

首先使用卷积网络对支持特征图^s _c进行下采样，使它的尺寸由14×14×1024变为7×7×2048；

使用1×1的卷积操作g(*)计算候选区域特征图r_n，i上每个点的权重g(r_n，i)；

将其乘上查询图片特征图上每个特征点的权重g(r_n，i)，就得到支持图片特征图s_c和查询图片特征图r_n，i在空间上的关联，然后加到原始的支持图片特征图sc，得到重加权过的支持特征图

具体计算方式为：

在本申请的具体实施例中，在元学习的训练范式中，支持集中的数据样本通常只用来提供类别信息，从而指导查询图片完成检测任务。但是，一张完整的支持图片不同位置上的信息对查询图片有着不同的影响，例如背景等与查询图片关系不大的信息，对于查询图片的检测并没有起到指导作用。

因此，在本发明中设计了重加权支持特征模块，用于对支持图片提供的信息进行有效筛选。

首先利用non-local计算查询图片特征图与支持图片特征图在空间上的关联，将这个关联信息加到原始支持图片的特征图上。通过这个模块可以让支持图片提供的类别表征更具有针对性，空间上与查询图片有更大相似度的位置将会有更大的置信度，而类似于背景这种与查询图片关联很小的位置对检测的影响将十分微弱。

此外，为了进一步利用特征间的关系进行建模，本发明中还设计了动态关联学习(Dynamic Relevance Learning)模块。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强关联动态学习的少样本目标检测方法，其特征在于，包括以下步骤：

提取特征，获得一个三维的特征图，在特征图q_n上获取到每

S3：重加权支持特征图：首先使用卷积网络对支持特征图s_c进行下采样，利用non-local网络计算支持图片特征图s_c和查询图片特征图r_n,i在空间上的关联，加到原始的支持图片特征图s_c，得到重加权过的支持特征图

向量的维度为2048，具体计算方式为

S5：特征融合：将步骤S2得到的候选区域特征图r_n,i经过全局平均池化，将其空间尺寸压缩为1×1得到候选区域特征向量

向量的维度为2048，将候选区域特征向量

和

拼接起来得到一个融合后的候选区域特征向量

融合后向量的维度为4096，具体计算方式为：

输入到分类头F^cls(*)以及回归头F^box(*),分类头和回归头分别是一个全连接层FC，分类头输出候选区域被预测为每个类别的概率

S7：动态图卷积：将步骤S3得到的下采样之后的支持特征图

经过全局平均池化，得到支持特征向量

计算支持集中所有特征向量

和查询图片

上所有候选区域特征向量

的相似度，得到相似度矩阵A；

将每个候选区域被预测的类别概率分布

根据它和步骤S2得到的每个候选区域真实类别标签计算交叉熵损失函数L_drl；

S8：训练网络：步骤S2使用的候选区域网络(RPN)会产生损失L_rpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较，分别使用交叉熵和Smooth L1损失函数计算损失L_cls和L_box；

总的损失L＝L_rpn+L_cls+L_box+L_drl，损失L通过随机梯度下降算法(SGD)训练模型，一共训练20轮停止，得到在基础类数据集D_base上训练好的基础模型；

2.根据权利要求1所述的基于强关联动态学习的少样本目标检测方法，其特征在于，步骤S1具体包括：每个数据样本由一张图片和图片中物体的位置和类别标签构成，基础类数据集数据样本的数量远远大与新类别数据集的数量；

其中：

表示支持集中类别c对应的图片，

是图片

对应的位置和类别标签，C表示数据集中类别的数目60。

3.根据权利要求2所述的基于强关联动态学习的少样本目标检测方法，其特征在于，步骤S1还包括：在基础类数据集D_base中随机挑选4个数据样本构成查询集

其中

表示查询集中第n张图片，

表示图片

4.根据权利要求3所述的基于强关联动态学习的少样本目标检测方法，其特征在于，在步骤S2中：提取特征后得到的三维的特征图

其中，特征图的宽和高为14，通道数为1024；

此外，使用特征提取器F^exr(*)对查询图片

提取特征得到特征图

5.根据权利要求4所述的基于强关联动态学习的少样本目标检测方法，其特征在于，在步骤S2中：将查询图片

的特征图q_n输入到候选区域网络(Region ProposalNetwork，RPN)得到128个候选区域的位置坐标以及它们对应的真实标签，然后将特征图q_n和位置坐标输入到RoIAlign网络中；

在特征图q_n上获取到每个候选区域对应的特征图

其中，r_n,i表示查询图片

的第i个候选区域的特征图，特征图r_n,i的宽和高为7，通道数为2048，查询图片

上得到的候选区域数量为128，具体计算方式为：

6.根据权利要求5所述的基于强关联动态学习的少样本目标检测方法，其特征在于，步骤S3具体为：

使用1×1的卷积操作g(*)计算候选区域特征图r_n,i上每个点的权重g(r_n,i)；

然后使用点乘操作f(*)得到支持图片特征图s_c和候选区域特征图r_n,i的相似度并归一化；

将其乘上查询图片特征图上每个特征点的权重g(r_n,i)，就得到支持图片特征图s_c和查询图片特征图r_n,i在空间上的关联，然后加到原始的支持图片特征图s_c，得到重加权过的支持特征图

具体计算方式为：