CN114663707A

CN114663707A - 基于Faster RCNN改进的少样本目标检测方法

Info

Publication number: CN114663707A
Application number: CN202210311386.2A
Authority: CN
Inventors: 江彧; 杜芸彦; 毛耀; 李鸿; 杨锦辉; 刘超; 彭锦锦
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-24

Abstract

本发明提供一种基于FasterRCNN改进的少样本目标检测方法。本发明在传统目标检测框架FasterRCNN的基础上，结合CBAM注意力模块、全局‑局部关系检测器以及基于余弦Softmax损失的分类器对FasterRCNN进行了深度优化和改进，使其有利于少样本目标检测。本发明将CBAM注意力模块与FasterRCNN中的RPN网络相结合形成了基于注意力机制的CBAM‑Attention‑RPN网络，有助于生成特定类别的候选框，提高后续网络的精度。本发明提出了全局‑局部关系检测器，利用全局关系和局部关系两种关系对支持图像特征和查询图像特征进行特征匹配，有助于得到与目标类别更相关的候选框。本发明提出了基于余弦Softmax损失的分类器作为分类分支，有助于降低类内方差，提高新类的检测精度。

Description

基于Faster RCNN改进的少样本目标检测方法

技术领域

本发明涉及深度学习目标检测和少样本学习领域，具体涉及一种基于FasterRCNN改进的少样本目标检测方法。

背景技术

目标检测作为一个重要的计算机视觉任务，旨在找出图像中所感兴趣的目标，确定它们的位置和所属类别，是许多其他计算机视觉任务的基础。近年来，随着强大的计算设备、大规模数据集以及先进的模型和算法的出现，基于深度学习技术的目标检测得到了快速发展，并逐步取代传统的检测方法。现在，目标检测已广泛应用于许多实际应用中，例如自动驾驶、机器人视觉、视频监控等。虽然现在有很多成熟的目标检测算法都得到了实际应用，但是其弊端也开始浮现，其中一个较大的问题就是较大多数成熟算法的应用都需要借助于大规模的标注数据，而在绝大多数的实际应用场景中，收集满足要求的标注数据是一件十分耗费财力和物力的工作，这不仅导致了应用场景单一、覆盖任务单一等问题，也极大限制了目标检测方法的应用与推广，因此如何利用较少的标注数据学习具有一定泛化能力的模型成为了迫切研究的问题。而少样本学习方法不依赖于大规模的训练样本，从而避免了在某些特定应用中数据准备的高昂成本，其次少样本学习方法可以实现一个新兴任务的低成本和快速的模型部署，而这个任务只有几个暂时可用的样本，这有利于阐明任务早期的潜在规律。基于此，将少样本学习与目标检测进行结合是十分有必要的，少样本学习可以有效地解决目标检测中数据量不足的问题，进一步推动目标检测的发展，扩大其实际应用的范围，因此，基于少样本学习的目标检测算法是具有一定研究意义的。

本发明就是将少样本学习方法和基于深度学习的目标检测算法Faster RCNN相结合，构成基于少样本学习的目标检测方法，使其能够仅使用少量的目标标注样本实现对目标的目标检测。

发明内容

本发明要解决的技术问题是：提供了一种基于Faster RCNN改进的少样本目标检测方法，以解决在目标类别样本量不足的情况下，对目标对象进行检测的问题，实验证明本发明提出的方法能够有效提高少样本情况下对目标类别的检测精度。

本发明采用的技术方案如下：基于Faster RCNN改进的少样本目标检测方法，包括如下步骤：

步骤1：将图像划分为支持集图像和查询集图像，其中支持集图像为少量几张包含目标样本的图像，其中样本已被标注，查询集包含未标注的样本，但其和支持集类别空间一致。

步骤2：将支持图像和查询图像输入权重共享的骨干网络进行特征提取，支持图像提取的特征定义为支持特征图，查询图像提取的特征定义为查询特征图。

步骤3：支持特征图和查询特征图分别通过CBAM注意力模块生成对应的注意力特征图后，将支持集注意力特征进行均值池化和深度卷积，将查询集注意力特征进行深度卷积，再将得到的两个结果进行深度互相关生成最终的注意力特征图，然后将注意力特征图输入RPN网络生成查询候选框。

步骤4：将支持集注意力特征图和其真实的标签框经过ROI Pooling操作得到支持目标特征图，再将查询集注意特征图和查询候选框经过ROI Pooling操作得到查询候选框特征图，再将支持目标特征图和查询候选框特征图送入全局-局部关系检测器进行特征匹配计算，以此得到相似度高的查询候选框特征图。

步骤5：将相似度高的查询候选框送入回归分支和基于余弦Softmax损失的分类器对目标对象进行定位和分类。

进一步地，步骤3中CBAM注意力模块与RPN网络相结合形成CBAM-Attention-RPN网络，支持特征图和查询特征图先分别通过CBAM注意力模块，将得到的对应的注意力图进行均值池化和深度卷积等操作，再将得到的两个结果做深度互相关生成最终的注意力特征图送入RPN网络。

进一步地，步骤4中提出的全局-局部关系检测器，将支持注意力特征图和查询注意力特征图分别经过ROI Pooling操作后得到的支持目标特征图和查询候选框特征图进行全局-局部关系匹配，即采用全局关系和局部关系进行特征匹配，计算两者相似度并留下相似度高的查询候选框区域。

进一步地，步骤5中采用基于余弦Softmax损失的分类器替换原有的Softmax分类器作为其分类分支，余弦Softmax损失如公式(3)所示，

其中，L_cos表示余弦Softmax损失；N是训练样本数，i＝{1,2,…,N}表示样本索引；C是类别数，j＝{1,2,…,C}表示类别索引，α表示比例因子，

和θ_j,i分别表示权重W的第y_i列和第j列与第i个样本的输入特征x_i之间的角度，y_i表示x_i对应的标签，L_cos以分类权重向量为中心聚拢同类样本特征，降低了类内方差，提高了对新类的检测精度。

本发明的原理在于：

本发明在传统目标检测框架Faster RCNN的基础上，结合CBAM注意力模块、全局-局部关系检测器以及基于余弦Softmax损失的分类器对Faster RCNN进行了深度优化和改进，使其有利于少样本目标检测。本发明将CBAM注意力模块与Faster RCNN中的RPN网络相结合形成了基于注意力机制的CBAM-Attention-RPN网络，首先将支持集图像和查询集图像的特征分别送入CBAM注意力模块，在通道和空间两个维度上推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化，再将经过CBAM注意力模块后得到的支持注意力特征图和查询注意力特征图进行均值池化和深度卷积等操作，再将得到的相应结果进行深度互相关以生成最终的注意力特征图，然后将其输入RPN网络生成查询候选框，这样有助于生成特定类别的候选框，提高后续网络的精度。本发明提出了全局-局部关系检测器，利用全局关系和局部关系两种关系将支持注意力特征图和查询注意力特征图分别经过ROIPooling操作后得到的特征进行全局-局部关系特征匹配，计算两者相似度并留下相似度高的候选区域，剔除相似度低的区域，这样有助于得到与目标类别更相关的候选框。本发明提出了基于余弦Softmax损失的分类器作为分类分支，有助于降低类内方差，提高新类的检测精度。

综上所述，相比于现有的一些方法，本发明的有益效果是：

1)相比于一些其它传统的目标检测模型，本发明提出的模型能够有效的检测新对象，同时抑制背景中的错误检测。

2)本发明针对少样本目标检测，能够降低类内方差，提高对新类的检测精度。

3)相比于一些传统的目标检测模型，本发明可以充分挖掘和利用好先验信息，从而提高检测性能。

附图说明

为了更加清晰明了的说明本发明的具体细节，对本发明中涉及到的一些附图做简单的介绍，以下附图仅仅示出了本发明的某些实施例以便于细节理解，并不以任何方式限制本发明的范围。

图1为CBAM注意力模块示意图。

图2为通道注意力模块和空间注意力模块结构图。

图3为全局-局部关系检测器图。

图4为在MS COCO数据集上部分检测结果图。

具体实施方式

以下结合附图说明本发明的具体实施例做详细说明。但以下的实施例仅限于解释本发明，本发明的保护范围应包括权利要求书限定的全部内容；而且通过以下实施例对本领域的技术人员即可以实现本发明权利要求书的全部内容。

本具体实施方式中，针对少样本目标检测的方法，主要如下的几个步骤：

步骤1：输入图像

将输入的图像分为支持集图像和查询集图像，其中待检测的图像为查询集图像，包含未标注的目标样本，支持集图像则为少量几张包含标注的目标样本的图像。

步骤2：特征提取

将支持集图像和待检测的查询图像分别看作支持图像分支和查询图像分支，将两者送入权重共享骨干网络，生成对应的支持特征图和查询特征图。其中若支持集有N类，则有N个支持图像分支，若每类有K张支持图像，那么让其依次通过权重共享网络生成特征图，然后取平均值作为支持特征图。

步骤3：生成查询候选框

传统的RPN网络生成潜在的候选框区域，然后通过Softmax分类器判断其属于前景还是背景，然后进行回归修正候选框区域获得较为准确的候选框。在少样本的情况下进行目标检测，待检测的目标对象仅包含少量的训练样本，而通过大量基类训练得到的RPN网络，在检测新类别时，会产生很多与目标对象无关的候选框，因此这需要候选的分类网络具有良好的判别能力。同时，RPN网络不仅需要过滤掉背景框还需要过滤掉那些不属于支持集中包含的类别的其他类别候选框，减少候选框的数量，生成特定类别的候选框，提高后续网络的精度。因此，本发明提出了基于注意力机制的CBAM-Attention-RPN网络，采用支持集图像和查询集图像特征作为输入，利用CBAM-Attention-RPN网络有效生成目标类别的候选框。首先将经过特征提取后得到的支持特征图和查询特征图送入CBAM注意力模块，在通道维度和空间维度两个维度上推断注意力图，通过学习全局信息来选择性的加强某些特征，并抑制某些不太有用的特征。如图1所示的CBAM注意力模块示意图，输入的特征首先经过通道注意力模块，得到加权结果后，再经过空间注意力模块，再次进行加权得到最终的结果。通道注意力模块和空间注意力模块具体操作如图2所示，通道注意力模块中，对输入的通道数为C的特征图经过全局最大池化和全局均值池化进行全局信息的压缩，得到两个1×1×C的通道描述；接着将它们分别送入一个共享的两层神经网络输出对应的特征；然后将得到的两个特征相加后通过一个Sigmoid激活函数获得通道权重系数M_C；最后使用通道权重系数M_C和最初的特征相乘后得到通道注意力特征图。在空间注意力模块中，将经过通道注意力模块的特征首先分别进行一个通道维度的全局最大池化和全局均值池化，接着将这两个结果按照通道拼接在一起，然后进行一个卷积操作，降维成1个通道，再经过Sigmoid激活函数获得空间权重系数M_S，最后使用空间权重系数M_S和输入的通道注意力特征图相乘生成CBAM注意力特征图。在支持特征图和查询特征图分别通过CBAM注意力模块生成对应的注意力特征图后，将生成的查询集注意力特征经过深度卷积，然后将生成的支持集注意力特征进行均值池化和深度卷积形成1×1×C的向量，再将该向量作为卷积核与深度卷积后的查询集特征进行深度互相关操作，生成能表示支持集特征和查询集特征相关性的注意力特征图，最后将注意力特征图输入RPN网络生成查询候选框。

步骤4：进一步提取更相关的查询候选框

将支持集注意力特征图和其真实的标签框经过ROI Pooling操作得到支持目标特征图，再将查询集注意力特征图和查询候选框经过ROI Pooling操作得到查询候选框特征图。然后将支持目标特征图和查询候选框特征图送入全局-局部关系检测器进行特征匹配，并行计算支持目标特征与查询候选框特征的相似性，留下相似性高的候选框区域，剔除相似性低的候选框区域，以此得到更相关的查询候选框。全局-局部关系检测器采用全局关系检测器头和局部关系检测器头分别对每一个候选框区域进行计算，得到相应的匹配分数，再将匹配分数进行相加取平均，得到最终的候选框区域。其中全局关系检测器头采用全局表示去匹配图像，首先将输入的支持目标特征和查询候选框特征拼接起来，其次将拼接后的特征均值池化成1×1大小，然后使用具有两层全连接层的多层感知机进行处理，最后通过一个全连接层得出匹配分数。局部关系检测器头捕获像素和像素之间的匹配关系，首先用共享权重的1×1×C的卷积核分别对输入的两个特征进行处理，然后将支持目标特征作为卷积核在查询候选框特征上做卷积，最后跟一层全连接层生成匹配分数。

步骤5：对查询候选框进行定位和分类

将上一步最后得到的候选框区域进行定位和分类，筛选出最终的目标。原始的Faster RCNN采用传统的Softmax分类器进行分类，输出目标所属的类别，但是在少样本的情况下，传统的Softmax分类器不足以学习较好的可分离特征进行类别判别，以检测新类别的目标。因此本发明采用基于余弦Softmax的分类器替换原来的Softmax分类器，学习可分离的特征，降低类内方差，提高新类的检测精度。常规的Softmax损失通过最大化真实类别的后验概率将特征从不同类别中分离出来，如公式1所示，

其中，L_s表示Softmax损失；N是训练样本数，i＝{1,2,…,N}表示样本索引；C是类别数，j＝{1,2,…,C}表示类别索引；f＝W^Tx_i+b表示线性分类器，其作用在于将特征映射成类别分数，希望正确类别分数高，错误类别分数低，其中W表示权重矩阵，x表示样本的输入特征，x_i表示第i个样本的输入特征，b表示偏置向量，T表示转置；

表示x_i所属的正确类别对应的线性得分函数，y_i表示x_i对应的标签，

和

分别表示权重W的第y_i列和偏置b的第y_i项；

为具有权重向量W_j的全连接层的函数，W_j表示权重W的第j列，b_j表示偏置b的第j项。为简单起见，本发明令b＝0，从余弦的角度出发，因为W_j·x_i＝||W_j||||x_i||cosθ_j，θ_j为W_j和x_i之间的角度。所以Softmax损失可以改写为：

其中，

和

分别表示

和W_j的转置，

和θ_j分别表示

和W_j与x_i之间的角度。为了进行有效的特征学习，本发明对Softmax施加额外约束，通过L2归一化将||W||＝1。因为根据两个特征向量之间的余弦相似度来计算分类得分，所以本发明将||x_i||＝α，则

因此后验概率仅依赖于角度余弦。由此得到的余弦Softmax损失如公式(3)所示，

其中，L_cos表示余弦Softmax损失，α表示比例因子，同样的

和θ_j,i也分别表示

和W_j与x_i之间的角度。因为本发明固定||x_i||＝α，消除了径向的变化，所以得到的模型学习在角度空间中可分离的特征，并且L_cos以分类权重向量为中心聚拢同类样本特征，降低了类内方差，提高了对新类的检测精度。

为了验证本发明的有效性，本发明将本发明的方法与目前的一些少样本目标检测方法进行了比较，详细结果见表Ⅰ，在对比的算法中，本发明采用ResNet-50作为骨干网络，相比其他算法，在参数量上也具有一定的优势。

表I与多种模型检测精度比较结果

由表Ⅰ可以看出，本发明提出的方法具有一定的优势，比FR在AP/AP50/AP75上分别提高了5.8/9.2/6.3；比MPSR在AP/AP50/AP75上分别提高了1.6/3.6/1.2；比FSOD在AP/AP50/AP75上分别提高了0.3/1.1/0.2。最后本发明的结果做可视化如图4所示，在MS COCO数据集上进行了验证。

本发明未详细阐述的部分属于本领域公知技术，以上所述仅为本发明的较佳的实例，并不用以限制本发明，本领域技术人员均能根据具体应用场景做出适当调整和有效性改进。

Claims

1.一种基于Faster RCNN改进的少样本目标检测方法，其特征在于，包括以下的步骤：

步骤1：将图像划分为支持集图像和查询集图像，其中支持集图像为少量几张包含目标样本的图像，其中样本已被标注，查询集包含未标注的样本，但其和支持集类别空间一致；

步骤2：将支持图像和查询图像输入权重共享的骨干网络进行特征提取，支持图像提取的特征定义为支持特征图，查询图像提取的特征定义为查询特征图；

步骤3：支持特征图和查询特征图分别通过CBAM(Convolutional Block AttentionModule)注意力模块生成对应的注意力特征图后，将得到的支持集注意力特征图进行均值池化和深度卷积，查询集注意力特征图进行深度卷积，再将新得到的两个结果进行深度互相关生成最终的注意力特征图，然后将注意力特征图输入区域候选网络(Region ProposalNetwork,RPN)网络生成查询候选框；

步骤4：将支持集注意力特征图和其真实的标签框经过ROI Pooling操作得到支持目标特征图，再将查询集注意力特征图和查询候选框经过ROI Pooling操作得到查询候选框特征图，再将支持目标特征图和查询候选框特征图送入全局-局部关系检测器进行特征匹配计算，以此得到相似度高的查询候选框特征图；

2.根据权利要求1所述的基于Faster RCNN改进的少样本目标检测方法，其特征在于，步骤3中CBAM注意力模块与RPN网络相结合形成CBAM-Attention-RPN网络，支持特征图和查询特征图先分别通过CBAM注意力模块，将得到的对应的注意力图进行均值池化和深度卷积操作，再将得到的两个结果做深度互相关以生成最终的注意力特征图。

3.根据权利要求1所述的基于Faster RCNN改进的少样本目标检测方法，其特征在于，步骤4中提出的全局-局部关系检测器，将支持注意力特征图和查询注意力特征图分别经过ROI Pooling操作后得到的支持目标特征图和查询候选框特征图进行全局-局部关系匹配，即采用全局关系和局部关系进行特征匹配，计算两者相似度并留下相似度高的查询候选框区域。

4.根据权利要求1所述的基于Faster RCNN改进的少样本目标检测方法，其特征在于，步骤5中采用基于余弦Softmax损失的分类器替换原有的Softmax分类器作为其分类分支，余弦Softmax损失如公式(3)所示，

其中，L_cos表示余弦Softmax损失；N是训练样本数，i＝{1,2,…,N}表示样本索引；C是类别数，j＝{1,2,…,C}表示类别索引，α表示比例因子，θ_yi,i和θ_j,i分别表示权重W的第y_i列和第j列与第i个样本的输入特征x_i之间的角度，y_i表示x_i对应的标签，L_cos以分类权重向量为中心聚拢同类样本特征，降低了类内方差，提高了对新类的检测精度。