CN114187440A

CN114187440A - 一种基于动态分类器的小样本目标检测系统及方法

Info

Publication number: CN114187440A
Application number: CN202111489407.1A
Authority: CN
Inventors: 张冬雨; 陈帆; 黄俊颖; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-15

Abstract

本发明提供一种基于动态分类器的小样本目标检测系统及方法，系统采用Faster R‑CNN作为基础检测器；Base training阶段不修改模型结构，直接在base classes上从随机初始化开始训练整个模型，模型的box predictor模块中采用多分类器用作最终的目标分类，具体地，使用了神经网络中的全连接层，Fine‑tuning阶段固定住除box predictor之外的全部模型参数，并且把多分类器换成距离分类器，具体地，使用了余弦分类器；由此可知，本发明也属于基于fine‑tuning的那一类小样本目标检测算法，但在保证高精度的同时极大地缩短了fine‑tuning的时间。

Description

一种基于动态分类器的小样本目标检测系统及方法

技术领域

本发明涉及深度学习中的目标检测领域，更具体地，涉及一种基于动态分类器的小样本目标检测系统及方法。

背景技术

小样本目标检测是深度学习中一个具有挑战性的难题，它结合了小样本学习和目标检测。因此我们先介绍这两个任务的背景技术，再描述小样本目标检测领域已有的成果。

小样本学习(Few Shot Learning)

小样本学习要解决的难题是在目标类别(novel classes)仅给定极少量标签数据的情况下，利用模型在标签数据丰富的已有类别(base classes)数据上学到的知识，能够准确地识别目标类别的未标注数据。已有的方法主要分为Meta-learning和Metriclearning两个方向。Meta-learning也被称为“learning to learning”，旨在学习一个meta-learner，它能够快速应用到带有少量标签数据的新任务上去。有的方法尝试去获取有效的参数初始化，有的方法则利用参数生成来使得模型能够适应到新任务。到目前为止，小样本学习领域已经在图像分类任务上取得了极大的进展，然而在更加具有挑战性的目标检测任务上却鲜有成效。

目标检测(Object Detection)

目标检测是计算机视觉中十分重要且应用广泛的一个任务，它旨在确定图片中所有感兴趣的实例(即目标)，并给出这些实例的类别和位置。传统的解决目标检测问题的思路是先对图片进行预处理，再采用滑动窗口选取候选区域，然后提取图片特征，最后再进行判别。近年来，随着深度学习的发展，主流的目标检测算法主要分为两大类：two-stage和one-stage。Two-stage方法首先显式地为可能的目标生成类别无关的候选区域，然后再把它们分类到具体的类别，并且对回归边界进行优化调整，比如R-CNN系列。One-stage方法不会显式地生成候选区域，而是直接预测目标的类别和位置，比如YOLO系列、SSD等。总的来说，two-stage的检测器由于步骤更加繁琐，需要耗费更长的时间，但也表现出了更强的性能。然而，所有的方法都极度依赖于大量带有标注的数据来进行训练，包括目标的类别以及边框的坐标，因此这些方法不能够直接应用到小样本目标检测任务中去。

小样本目标检测(Few Shot Object Detection)

小样本目标检测中，base classes作为已知类别，往往具有丰富的标签数据，包括目标的类别以及边框坐标；而novel classes作为目标类别，往往只有少量标注信息，这些数据被称为支持集。虽然支持集中每个标注都是完整带有类别以及边框坐标的，但这些数据并不足以让传统模型学习到novel classes中足够多的信息。在小样本目标检测中，目前主流的方法分为两类：基于meta-learning的方法和基于fine-tuning(微调)的方法。

基于meta-learning的方法想要尽可能地学习类别无关的知识或者把从baseclasses学到的知识迁移到novel classes，一些方法在传统的检测器中引入了特征加权模块，利用支持集中的少量标注数据以及特征加权模块来为novel classes生成更好的特征。FSRW从base classes中提取出通用的特征，然后利用支持集以及特征加权模块来调整该特征，用作novel classes的识别。Meta R-CNN则提出要在RoI(Region of Interest)的特征上采用特征加权模块，而不是在整张图片的特征上。MetaDet提出了一个预测权重的模型，它利用base classes的数据来学习类别无关的部分，然后利用novel classes的数据来预测出类别相关部分的权重。值得一提的是，这些方法通常也需要fine-tuning过程。

基于fine-tuning的方法直接采用了传统的检测器，它们专注于提升fine-tuning过程的训练效果以使得能够有效地把模型在base classes上学到的知识迁移到novelclasses上去。然而，早期的这些方法效果并不理想，它们表现出的性能比基于meta-learning的方法要差很多，因此它们一度不被认为是有效的方法。它们通常考虑联合训练，即把base classes和novel classes的数据联合起来一起用于fine-tuning，并且在fine-tuning过程中微调整个模型。整个训练的过程一般是先在base classes上利用大量的数据从随机初始化开始训练模型，这个阶段被称为base training；随后构建一个包含baseclasses和novel classes的平衡的数据集，用于fine-tuning模型。TFA是目前取得了比较好效果的基于fine-tuning的方法，它采用传统检测器是Faster R-CNN，整个模型包含4个主要模块：提取特征的feature extractor模块、生成类别无关的目标候选区域的RPN模块(Region Proposal Network)、进一步提取候选区域特征的RoI extractor模块、用于预测目标具体类别以及优化候选区域边界的box predictor模块。Faster R-CNN通过featureextractor对输入的图片提取到特征后，送入RPN网络，通过采用anchor box以及滑动窗口的策略来设置不同长宽比和尺度的候选窗口，进而判断窗口是否属于感兴趣的目标，最后通过窗口置信度来得到候选区域，用作最终的目标分类以及边界优化。TFA认为featureextractor与RPN都是与类别无关的模块，因此它提出在fine-tuning阶段固定住模型的大部分参数，只微调box predictor中最后一层网络的参数，能够极大地提高模型的表现，从而使得传统检测器可应用于小样本目标检测。

然而，TFA虽然取得了超过基于meta-learning的方法的精度，但它所需要的fine-tuning时长却让人难以忍受：以每个novel class提供10个标注样本为例，在目标检测经典数据集PASCAL VOC上TFA需要4.5h的fine-tuning时间，在MS COCO数据集上TFA需要16h的fine-tuning时间。这么长的fine-tuning时间影响了TFA模型的实用性，它在实际应用中并不是那么令人满意。

发明内容

本发明提供一种基于动态分类器的小样本目标检测系统，该系统在保证高精度的同时极大地缩短了fine-tuning的时间。

本发明的又一目的在于提供该基于动态分类器的小样本目标检测系统的检测方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于动态分类器的小样本目标检测系统，包括：

特征提取模块，以经过数据增强后的图片作为输入，输出不同尺度的多个特征图；

RPN模块，在特征图进行候选区域预测得到最终的候选区域；

RoI Pooling模块，以特征图和候选区域作为输入，从特征图上提取出属于候选区域的特征；

Box Predictor模块，将得到的属于候选区域的特征进行分类预测和边框的回归预测。

进一步地，所述特征提取模块进行特征提取的具体过程是：

特征提取模块采用的网络是ResNet-101+FPN。图片首先经过1个7x7x64的卷积层，然后经过3x3的最大池化层，接下来陆续经过4个子模块，每个子模块都由多个残差模块组成，而每个残差模块又包括3个卷积层：conv_2子模块包含3个残差模块，输出的结果命名为C2，输入给conv_3；conv_3包含4个残差模块，输出的结果命名为C3，输入给conv_4；conv_4包含23个残差模块，输出的结果命名为C4，输入给conv_5；conv_5包含3个残差模块，输出的结果命名为C5。从C2到C5，每一级特征图的大小都会缩小一半。C2、C3、C4、C5分别作为FPN(Feature Pyramid Networks)的输入，分别经过1x1的卷积后，上一级的特征图通过上采样后(大小翻倍)与下一级的特征图融合，最终得到P2、P3、P4、P5这4个不同尺度的特征图。最后，还会在P5的基础上进一步做一个最大池化的操作，得到尺度更小的特征图P6。

进一步地，所述RPN模块处理的具体过程是：

RPN模块在特征图上采用滑动窗口，在一个位置上对k个可能的候选区域进行预测又被称为k个anchor boxes，对于一个大小为W×H的特征图，一共会对W×H×k个anchor进行预测，每个anchor会被预测得到一个二分类的置信度以及边框坐标。这些预测结果经过按照置信度筛选后，得到最终的候选区域。

进一步地，所述RoI Pooling模块处理的具体过程是：

由于RPN预测的候选区域的坐标是针对原始输入图片的，因此首先需要根据输入图片的大小，将RPN所预测的候选区域映射到特征图中所对应的位置；将映射后的区域划分为相同大小的块，块的数量与输出的维度相同；对每个块取其中的最大元素作为输出，从而得到属于输出维度的特征图。

进一步地，所述Box Predictor模块包括分类器和回归器组成；所述分类器则采用动态分类器，该动态分类器在base training阶段使用基于全连接层的多分类器，在fine-tuning和测试阶段换成基于余弦距离的余弦分类器。

进一步地，所述余弦分类器采用了全连接层来间接实现余弦分类器，具体地，全连接层的权重参数矩阵

视为c个维度为d的向量的组合

这些向量可代表每个要预测的类别的特征，在特征经过全连接层之前，先进行归一化处理，即可实现余弦相似度的计算：

其中，F(x)是输入的特征，s_i,j是第i个候选目标与第j个类别的余弦相似度，ω_j是第j个类别的权重向量，α是一个控制缩放的超参数，通过实验结果选定为20。

进一步地，对于Box Predictor模块的训练，设计设计的目标函数为以下形式：

L＝L_rpn+L_cls+L_reg

其中L_rpn被应用到RPN的输出中，用于找到可能是实例的候选区域，包含对窗口的二分类损失以及用于回归的smooth L1 loss；L_cls是Box predictor的分类器采用的cross-entropy loss；L_reg是Box predictor的回归器采用smooth L1 loss；在base training阶段，整个目标函数都用于模型的训练；在fine-tuning阶段，只有L_cls和L_reg用于Boxpredictor中分类器和回归器的训练。

进一步地，通过对齐分类概率与候选区域和GT box的IOU，来提高分类器的性能，使得其能够给定位更准确的边框更高的分数，K-shot的一致性微调的目标函数定义如下：

其中R是候选区域数量，Pr(c；x_i)是把第i个候选区域预测为类别c的概率，m_Ga_cxIOU(x_i；G_c)表示类别c的GT box中与x_i最大的IOU。

一种基于动态分类器的小样本目标检测方法，包括以下步骤：

S1：特征提取模块:以经过数据增强后的图片作为输入，输出不同尺度的多个特征图；

S2：RPN模块在特征图进行候选区域预测得到最终的候选区域；

S3：RoI Pooling模块以特征图和候选区域作为输入，从特征图上提取出属于候选区域的特征；

S4：Box Predictor模块将得到的属于候选区域的特征进行分类预测和边框的回归预测。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过设计一个基于动态分类器的小样本目标检测器，采用Faster R-CNN作为基础检测器；Base training阶段不修改模型结构，直接在base classes上从随机初始化开始训练整个模型，模型的box predictor模块中采用多分类器用作最终的目标分类，具体地，使用了神经网络中的全连接层，Fine-tuning阶段固定住除box predictor之外的全部模型参数，并且把多分类器换成距离分类器，具体地，使用了余弦分类器；由此可知，本发明也属于基于fine-tuning的那一类小样本目标检测算法，但在保证高精度的同时极大地缩短了fine-tuning的时间。

附图说明

图1为本发明系统结构图。

图2为本发明试验结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于动态分类器的小样本目标检测系统，包括：

RPN模块，在特征图进行候选区域预测得到最终的候选区域；

特征提取模块进行特征提取的具体过程是：

RPN模块处理的具体过程是：

RoI Pooling模块处理的具体过程是：

Box Predictor模块包括分类器和回归器组成；所述分类器则采用动态分类器，该动态分类器在base training阶段使用基于全连接层的多分类器，在fine-tuning和测试阶段换成基于余弦距离的余弦分类器。

余弦分类器采用了全连接层来间接实现余弦分类器，具体地，全连接层的权重参数矩阵

视为c个维度为d的向量的组合

L＝L_rpn+L_cls+L_reg

通过对齐分类概率与候选区域和GT box的IOU，来提高分类器的性能，使得其能够给定位更准确的边框更高的分数，K-shot的一致性微调的目标函数定义如下：

其中R是候选区域数量，Pr(c；x_i)是把第i个候选区域预测为类别c的概率，

表示类别c的GT box中与x_i最大的IOU。

本发明是基于传统的Faster R-CNN检测器能够很好地提取图片语义信息并且在标签数据丰富时检测精度较高的前提下。首先将图像这一无结构化数据以及结构化的标签数据(类别以及边框坐标)输入到检测器中，随后检测器将通过Feature extractor提取多尺度的图片语义信息，得到多个尺度的特征图后送入RPN以及RoI pooling。RPN利用滑动窗口以及anchor box策略为特征图上的每个点都预测多个结果，最终通过置信度来筛选出可能的候选区域，送入RoI Pooing。RoI Pooling根据候选区域和特征图，提取出属于候选区域的特征，并利用卷积神经网络进一步提取语义信息，得到的特征最终分别送入DynamicClassifier和Box Regressor进行分类预测和边框的回归预测。

在这个过程中，本发明算法着重应用在动态分类器这一部分，通过在basetraining和fine-tuning阶段采用不同的分类器，以及优化过后的实现方式，能够使得检测器在fine-tuning阶段快速收敛，并且在测试时取得不错的效果。此外，引入一致性微调能够进一步提高分类器的性能，使得检测器更加青睐于定位效果好的那些边框。同时，一致性微调也仅应用于动态分类器，仅需耗费几十秒的fine-tuning时间，实用性较强。

实施例2

实施例3

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

本发明的具体实施例子如下：

步骤1：按照现有技术对PASCAL VOC数据集与MS COCO数据集对base classes和novel classes的划分方式，获取到novel classes的带标注样本，即为支持集D_n；

步骤2：base training阶段将图片输入给检测器，依次经过feature extractor、RPN、RoI模块后，通过多分类器进行类别预测，通过box regressor进行边框坐标预测，此阶段训练整个模型；

步骤3：把box predictor中的多分类器换成余弦分类器，并保留属于baseclasses的那些参数，随机初始化属于novel classes的参数；

步骤4：fine-tuning阶段把支持集的数据输入给检测器，同时只微调boxpredictor的参数，并且加上一致性微调的目标函数；

步骤5：测试阶段，直接把要预测的图片输入给模型，即可得到对感兴趣的目标的类别以及位置的预测，还可以进一步通过脚本对输出结果进行处理，展示出可视化结果(如图2所示)。

综上所述，本发明提出了一种新颖的小样本目标检测算法，通过引入动态分类器与一致性微调，并采用优化后的实现方式，能够在耗费较短fine-tuning时间的前提下，达到与现有技术相媲美的表现。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于动态分类器的小样本目标检测系统，其特征在于，包括：

RPN模块，在特征图进行候选区域预测得到最终的候选区域；

2.根据权利要求1所述的基于动态分类器的小样本目标检测系统，其特征在于，所述特征提取模块进行特征提取的具体过程是：

特征提取模块采用的网络是ResNet-101+FPN，图片首先经过1个7x7x64的卷积层，然后经过3x3的最大池化层，接下来陆续经过4个子模块，每个子模块都由多个残差模块组成，而每个残差模块又包括3个卷积层：conv_2子模块包含3个残差模块，输出的结果命名为C2，输入给conv_3；conv_3包含4个残差模块，输出的结果命名为C3，输入给conv_4；conv_4包含23个残差模块，输出的结果命名为C4，输入给conv_5；conv_5包含3个残差模块，输出的结果命名为C5，从C2到C5，每一级特征图的大小都会缩小一半，C2、C3、C4、C5分别作为FPN(FeaturePyramid Networks)的输入，分别经过1x1的卷积后，上一级的特征图通过上采样后(大小翻倍)与下一级的特征图融合，最终得到P2、P3、P4、P5这4个不同尺度的特征图，最后，还会在P5的基础上进一步做一个最大池化的操作，得到尺度更小的特征图P6。

3.根据权利要求2所述的基于动态分类器的小样本目标检测系统，其特征在于，所述RPN模块处理的具体过程是：

RPN模块在特征图上采用滑动窗口，在一个位置上对k个可能的候选区域进行预测又被称为k个anchor boxes，对于一个大小为W×H的特征图，一共会对W×H×k个anchor进行预测，每个anchor会被预测得到一个二分类的置信度以及边框坐标，这些预测结果经过按照置信度筛选后，得到最终的候选区域。

4.根据权利要求3所述的基于动态分类器的小样本目标检测系统，其特征在于，所述RoI Pooling模块处理的具体过程是：

5.根据权利要求4所述的基于动态分类器的小样本目标检测方法，其特征在于，所述Box Predictor模块包括分类器和回归器组成；所述分类器则采用动态分类器，该动态分类器在base training阶段使用基于全连接层的多分类器，在fine-tuning和测试阶段换成基于余弦距离的余弦分类器。

6.根据权利要求5所述的基于动态分类器的小样本目标检测系统，其特征在于，所述余弦分类器采用了全连接层来间接实现余弦分类器，具体地，全连接层的权重参数矩阵

视为c个维度为d的向量的组合，

7.根据权利要求6所述的基于动态分类器的小样本目标检测系统，其特征在于，对于Box Predictor模块的训练，设计设计的目标函数为以下形式：

L＝L_rpn+L_cls+L_reg

8.根据权利要求7所述的基于动态分类器的小样本目标检测系统，其特征在于，通过对齐分类概率与候选区域和GT box的IOU，来提高分类器的性能，使得其能够给定位更准确的边框更高的分数，K-shot的一致性微调的目标函数定义如下：

表示类别c的GT box中与x_i最大的IOU。

9.一种根据权利要求8所述的基于动态分类器的小样本目标检测系统的检测方法，其特征在于，包括以下步骤：

S1：特征提取模块以经过数据增强后的图片作为输入，输出不同尺度的多个特征图；

10.根据权利要求9所述的基于动态分类器的小样本目标检测方法，其特征子在于，所述步骤S1的具体过程是；

特征提取模块采用ResNet-101+FPN网络，图片首先经过1个7x7x64的卷积层，然后经过3x3的最大池化层，接下来陆续经过4个子模块，每个子模块都由多个残差模块组成，而每个残差模块又包括3个卷积层：conv_2子模块包含3个残差模块，输出的结果命名为C2，输入给conv_3；conv_3包含4个残差模块，输出的结果命名为C3，输入给conv_4；conv_4包含23个残差模块，输出的结果命名为C4，输入给conv_5；conv_5包含3个残差模块，输出的结果命名为C5，从C2到C5，每一级特征图的大小都会缩小一半，C2、C3、C4、C5分别作为FPN(FeaturePyramid Networks)的输入，分别经过1x1的卷积后，上一级的特征图通过上采样后(大小翻倍)与下一级的特征图融合，最终得到P2、P3、P4、P5这4个不同尺度的特征图，最后，还会在P5的基础上进一步做一个最大池化的操作，得到尺度更小的特征图P6。