CN114743045A

CN114743045A - 一种基于双分支区域建议网络的小样本目标检测方法

Info

Publication number: CN114743045A
Application number: CN202210340717.5A
Authority: CN
Inventors: 董乐; 张宁; 何腾洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-12
Anticipated expiration: 2042-03-31
Also published as: CN114743045B

Abstract

本发明公开了一种基于双分支区域建议网络的小样本目标检测方法，涉及模式识别与信息处理技术领域，将数据集划分为基类图像和新类图像，构建finetune集；将基础特征图送入到双分支区域建议网络中，上分支提取图像内可能包含物体的极值特征、下分支提取图像内可能包含物体的主要类别特征，然后进行聚合后与原输入基础特征图进行残差连接，获取到图像的聚合语义特征，送入边界框回归网络和前背景判定网络以获得前景建议框的位置；并利用建议框池化将不同大小的建议框基础特征池化为同样大小的建议框特征图，送入边界框精修网络和类别判定网络以获得物体的精确位置和类别；利用Finetune集进行微调；能够提取到高维语义信息。

Description

一种基于双分支区域建议网络的小样本目标检测方法

技术领域

本发明涉及模式识别与信息处理技术领域，具体为一种基于双分支区域建议网络的小样本目标检测方法。

背景技术

目标检测是计算机视觉领域最具挑战性的关键与基础技术之一，在基于大量有标签数据的深度学习驱动下，目标检测已经取得了重大进展，也推动了无人驾驶、智能交通和工业自动化等领域的迅速发展。但是当前基于大量样本训练的目标检测方法严重依赖于有标签数训练数据的场景和质量，泛化能力很弱，而且在一些极端场景下，获取大量的有标注样本不仅非常困难且耗时耗力。另一方面，人类智能能够仅通过几个物体的学习就能够“举一反三”，并将其泛化到其他训练期间未见类别上。故此如何让网络摆脱对大量数据的依赖，实现在小样本场景下对训练阶段未见类别的快速泛化具有非常重要的实践意义。

在现有的目标检测任务中，根据是否产生proposal可以将模型分为两个类别：单阶段(one-stage)目标检测算法和两阶段(two-stage)目标检测算法。相较于一阶段检测算法，两阶段目标检测算法虽然运行时间更长，但两阶段检测算法准确度更高。两阶段检测算法将检测问题划分为两个阶段，首先产生候选区域(region proposals)，然后对候选区域分类(一般还需要对位置精修)，这类算法的典型代表是基于region proposal的R-CNN系算法，如R-CNN，SPPNet，Fast R-CNN，Faster R-CNN，FPN，R-FCN等。以Faster RCNN为例，Faster RCNN首先使用一组基础的卷积池化层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。RPN网络用于将卷积网络生成的特征图进行前景和背景判定，生成region proposals。该层通过Softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals并送入到RoIPooling，RoI Pooling综合这些信息后提取proposal的特征图，送入后续全连接层判定目标类别。获取目标的位置和类别信息是视觉领域的基础任务，实现精确快速的目标检测对于目标跟踪、Re-ID等多个领域都有重要的推动意义。

现有的小样本检测方法主要分为两类：一类是以Meta-RCNN为代表的元学习方法，其通过加入编码器结构，将输入的包含回归框和掩膜信息的少量样本信息生成其对应类关注向量，特征向量对ROI特征进行支撑集查询集特征聚合(包括采用交叉关联、注意力机制等)，然后对R-CNN预测网络进行重构，以检测或分割出与这些类关注向量所代表对类相一致的目标。其他部分与Faster RCNN一致，并采用元学习的训练方法，在感兴趣的区域特征上使用元学习代替完整的图像特征，以此对Faster/Mask R-CNN的输入图片实现基于M类别的小样本目标检测。另一种思路是通过迁移学习来进行小样本目标检测。其主要思路不同于元学习，基于迁移学习的小样本目标检测工作通常将数据集划分为具有大量样本的基类和具有少量样本的新类，这两个集合的标签空间互斥。该方法采用两阶段的Faster RCNN作为基线模型，然后通过在基类上的数据的预训练，在将模型在新类上进行微调，以对新类目标进行精准检测。但是由于新类数据的稀疏性，该方法在对新类样本的检测上常出现误判，误将新类样本判定为背景。

发明内容

本发明的目的在于：为了解决在小样本场景下对训练阶段未见过新类的检测问题，尤其是对新类的类别判定采用单一的表征，忽视了检测任务和分类任务的不同关注问题，从而导致对检测精度的降低的技术问题，本发明提供一种基于双分支区域建议网络的小样本目标检测方法。

本发明为了实现上述目的具体采用以下技术方案：

一种基于双分支区域建议网络的小样本目标检测方法，所述目标检测方法包括以下步骤：

S1：将数据集划分为类别不相交的基类图像和新类图像，并在新类中抽取N个类别，每个类别抽取K个图像，分别构建finetune集，N、K均为大于零的自然数；

S2：采用ResNet-101深度残差卷积神经网络作为主干特征提取器来对输入的基类图像进行特征提取，得到基础特征图；

S3：将基础特征图送入到双分支区域建议网络中，首先通过一个卷积模块，然后将卷积后的特征图从计算图上分离，并利用上分支提取图像内可能包含物体的极值特征、下分支提取图像内可能包含物体的主要类别特征，然后进行聚合后与原输入基础特征图进行残差连接，获取到图像的聚合语义特征，将聚合语义特征送入边界框回归网络和前背景判定网络以获得前景建议框的位置；

S4：根据获取的前景建议框位置在基础特征图上裁剪出图像的原始特征，并利用建议框池化将不同大小的建议框基础特征池化为同样大小的建议框特征图，然后将建议框特征图送入边界框精修网络和类别判定网络以获得物体的精确位置和类别；

S5：将在基类训练好的模型，利用Finetune集进行微调，微调的方式同步S2-S4的训练过程。

进一步地，所述双分支区域建议网络构建包括以下步骤：

S31:将主干特征提取器提取的特征图通过一个3×3卷积层扩大感受野，然后将特征图的张量从计算图中取出；

S32:上分支将获得的特征向量通过两个DeCBL模块对物体的极值特征进行提取，DeCBL模块采用一个3×3的可形变卷积、BatchNorm、Leaky ReLU模块串联构成；

S33:下分支将获得的特征向量先通过一个卷积核大小1×5的CBL模块，然后通过一个卷积核大小5×1的CBL模块对物体的主要类别特征进行提取，CBL模块采用一个普通卷积、BatchNorm、Leaky ReLU模块串联构成；

S34:将上分支、下分支所得的不同特征进行深度上的相加，将相加后的特征图进一步通过一个CBL模块，然后与双分支区域建议网络的输入特征进行融合；

S35:根据计算出来的融合特征，通过1×1×1的前景分类分支计算出目标的类别得分，然后结合1×1×4的回归分支输出的位置坐标来确定建议框的类别和位置，然后进行筛选、非极大值抑制、采样，生成最终的建议框并输入区域建议池化网络。

进一步地，训练阶段和微调阶段包括以下步骤：

在训练阶段，特征提取器除最后两层特征外参数均被冻住，模型的其他部分均随机初始化，并进行前向传播和反向传播，当基类训练完成后，手动移除类别判定网络的最后一层，并重新保存预训练模型权重；

在微调阶段，加载重新保存的预训练模型权重，然后整个特征提取器被冻住，由于基类训练完成后预训练模型中类别判别网络的最后一层被移除，故在微调阶段该模块被随机初始化。

进一步地，N＝1,5,10；K＝1,2,3,5,10,30。

本发明的有益效果如下：

1.基于Faster RCNN结构，在区域建议网络处采用双分支结构，上分支通过可形变卷积扩大感受野，实现了对目标物体边界极值信息的提取，下分支采用普通卷积对特征图进行聚合，提取目标物体核心区域的特征，然后对两部分特征进行聚合，实现了对分类和回归特定特征的融合，能够提取到高维语义信息。

2.一方面，将5×5卷积改为1×5卷积和5×1的卷积堆叠以减少参数量过大带来的过拟合问题；另一方面，为避免较深网络在训练过程中出现梯度消失问题，将双分支区域建议网络初始特征与双分支融合后的特征进行残差连接，将残差连接后的特征进行前背景判定和边界框回归，从而加强梯度回传。

3.本发明采用预训练后微调的方式，通过由少量样本的组成的finetune集的微调，提高了模型对于新类的判别能力，从而优化了模型在小样本场景下的表现。

附图说明

图1是本发明的框架示意图；

图2是本发明的双分支区域建议网络框架示意图；

图3是本发明的DeCBL模块框架示意图；

图4是本发明的CBL模块框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明整体上提供了一个基于Faster RCNN的融入了注意力机制的轻量级快速图像深度估计算法，主要包括采用了一个用于特征提取的主干特征提取器、双分支区域建议网络、区域建议池化和类别判别网络、位置精修网络。整个系统的输入为一个RGB三通道的彩色普通图像，通过整个系统的处理后，最终会预测生成该图像所包含的目标物体类别和精确位置信息。

实施例1

本实施例提供一种基于双分支区域建议网络的小样本目标检测方法，所述目标检测方法包括以下步骤：

本实施例中，N＝1,5,10；K＝1,2,3,5,10,30。

具体地，如图2所示，所述双分支区域建议网络构建包括以下步骤：

S31:将主干特征提取器提取的特征图通过一个3×3卷积层扩大感受野，然后将特征图的张量从计算图中取出；实施时，特征图的张量的张量从计算图中取出，从而取消张量包含的向量的梯度回传。

S32:上分支将获得的特征向量通过两个DeCBL模块对物体的极值特征进行提取，如图3所示，DeCBL模块采用一个3×3的可形变卷积、BatchNorm、Leaky ReLU模块串联构成；

S33:下分支将获得的特征向量先通过一个卷积核大小1×5的CBL模块，然后通过一个卷积核大小5×1的CBL模块对物体的主要类别特征进行提取，如图4所示，CBL模块采用一个普通卷积、BatchNorm、Leaky ReLU模块串联构成；

综上所述，基于Faster RCNN结构，在区域建议网络处采用双分支结构，上分支通过可形变卷积扩大感受野，实现了对目标物体边界极值信息的提取，下分支采用普通卷积对特征图进行聚合，提取目标物体核心区域的特征，然后对两部分特征进行聚合，实现了对分类和回归特定特征的融合，能够提取到高维语义信息。一方面，将5×5卷积改为1×5卷积和5×1的卷积堆叠以减少参数量过大带来的过拟合问题；另一方面，为避免较深网络在训练过程中出现梯度消失问题，将双分支区域建议网络初始特征与双分支融合后的特征进行残差连接，将残差连接后的特征进行前背景判定和边界框回归，从而加强梯度回传。本发明采用预训练后微调的方式，通过由少量样本的组成的finetune集的微调，提高了模型对于新类的判别能力，从而优化了模型在小样本场景下的表现。

实施例2

在实施例1的基础之上，训练阶段和微调阶段包括以下步骤：

在训练阶段，特征提取器除最后两层特征外参数均被冻住，模型的其他部分均随机初始化，并进行前向传播和反向传播，当基类训练完成后，手动移除类别判定网络的最后一层，并重新保存预训练模型权重；实施时，由于在双分支区域建议网络部分将特征图从计算图上取出，故双分支网络的参数训练不影响主干特征提取器的训练。

Claims

1.一种基于双分支区域建议网络的小样本目标检测方法，其特征在于，所述目标检测方法包括以下步骤：

2.根据权利要求1所述的一种基于双分支区域建议网络的小样本目标检测方法，其特征在于，所述双分支区域建议网络构建包括以下步骤：

3.根据权利要求1所述的一种基于双分支区域建议网络的小样本目标检测方法，其特征在于，训练阶段和微调阶段包括以下步骤：

4.根据权利要求1所述的一种基于双分支区域建议网络的小样本目标检测方法，其特征在于，N＝1,5,10；K＝1,2,3,5,10,30。