CN112215228B

CN112215228B - 通过直接模仿两阶段特征搭建高效框架的方法

Info

Publication number: CN112215228B
Application number: CN202011464344.XA
Authority: CN
Inventors: 李泽辉; 杨淑爱; 李俊宇; 黄坤山
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-16
Anticipated expiration: 2040-12-14
Also published as: CN112215228A

Abstract

本发明提供了通过直接模仿两阶段特征搭建高效框架的方法，包括：S1、以resnet101和FPN网络构建模型的特征金字塔网络骨干网络；S2、在FPN中提取特征后，采用Refinement模块过滤掉负面影响，调整预定义锚盒的位置和大小；S3、二阶段检测头的分支，检测Refinement模块调整后锚盒的稀疏集，将T‑head分成两个分支进行分类和回归；S4、一阶段检测头的分支，将其设计成一个轻量级的网络；S5、定义训练的损失函数，提升一阶段检测器的精度，使一阶段检测器更容易获得有用的信息，使得在不增加计算成本的情况下，更能获得二阶段检测头的高精度和一阶段检测头的高效率。

Description

通过直接模仿两阶段特征搭建高效框架的方法

技术领域

本发明涉及深度学习计算机视觉领域，具体涉及通过直接模仿两阶段特征搭建高效框架的方法。

背景技术

现有目标检测方法可分为一阶段方法和两阶段方法。一阶段检测器由于采用简单的体系结构效率更高，而二阶段检测器由于其具有生成较为精确的候选框结构，在精度方面处于领先地位。尽管最近的工作试图通过模仿两阶段检测器的结构设计来改进一阶段检测器，但其精度差距仍然很大。我们提出一种通过直接模仿两阶段特征来训练一阶段检测器的新颖高效框架，旨在弥合一级和两级检测器之间的精度差距。与传统的模拟方法不同，本方法具有用于一阶段和两阶段检测器的共享主干，然后将其分支为两个头，这些头经过精心设计以具有兼容的模拟特征。并且可以进行端到端训练。而且成本并没有增加太多，这使得采用大型网络作为backbone变得可行。在精度上，以ResNeXt-101作为骨干网可达到46.1mAP。

发明内容

本发明利用计算机视觉领域目标检测算法中的直接模仿两阶段特征来指导训练一阶段检测器，缩小一阶段和两阶段检测器的精度差距，同时通过添加一些专门的设计，像双路径模拟和交错特征金字塔以简化模拟的过程，较少训练的复杂度。

本发明的通过直接模仿两阶段特征搭建高效框架的方法具体包括如下步骤：

S1、以resnet101和FPN网络构建模型的特征金字塔网络骨干网络；

S2、在FPN中提取特征后，采用Refinement模块过滤掉容易产生的负面影响，调整预定义锚盒的位置和大小，可以缓解极端类不平衡问题，在训练一阶段和二阶段检测器时提供更好的锚点初始化；

S3、二阶段检测头的分支，检测Refinement模块调整后锚盒的稀疏集，采用RoIAlign操作，为每个锚框生成7×7分辨率的位置敏感特征，然后将T-head分成两个分支进行分类和回归；

S4、一阶段检测头的分支，将其设计成一个轻量级的网络，可以克服特征不对称，并学习通过模仿二阶段检测器来提取高质量的特征；

S5、定义训练的损失函数，包含四个部分模拟损失、一阶段损失、二阶段的损失，Refinement模块的损失，利用缩小一阶段和二阶段检测器的结果差值损失来提升一阶段检测器的精度。

进一步地，所述步骤S1中，具体为，在RetinaNet中进行修改，将原始特征金字塔扩展到P7,P7相对于输入图像的步幅为128，具体来说，P6在C5上采用3×3 stride-2卷积生成，P7在P6上采用ReLU后加3×3 stride-2 conv计算，所有特征金字塔的通道数为256，在训练阶段保持从P2到P7的金字塔特征，然后将这些特征分组为{P2, P3, P4, P5, P6}和{P3, P4, P5, P6, P7}两组，构建交错特征金字塔。

进一步地，所述步骤S2中，具体为，在特征金字塔P3到P7上分别定义从32×32到512×512的锚，在1:1的长宽比下，每个位置只定义一个锚点，采用这种稀疏的锚点设置来避免特征共享。

进一步地，所述步骤S3中，二阶段检测头的目的是提取高质量的特征，并用这些特征来指导一阶段检测头的训练过程，为了获得更好的特征，将二阶段检测头设计为具有高分辨率输入的重头，在推理过程中不使用二阶段检测头。

进一步地，所述步骤S4中，一阶段检测头为一种不采样直接对特征金字塔顶部进行密集检测的one-stage检测头，将一阶段检测头设计成一个轻量级的网络，以克服特征不对称，并学习通过模仿二阶段检测头来提取高质量的特征。

进一步地，所述步骤S5中，对模拟损失的定义如下:

最后，我们正式将多任务训练损失定义为:

L = LR + LS + LT +Lmimic

其中LR、LS和LT分别表示Refinement模块的损失、一阶段检测头和二阶段检测头损失。

本发明具备如下有益效果：

1、设计分解后的检测头，分别在分类分支和回归分支上进行模拟。分解后的双路径模拟二阶段检测的训练使一阶段检测器更容易获得有用的信息。

2、使用交错特征金字塔staggered feature pyramid，从中提取一对不同分辨率的特征。对于每个anchor-box，分别从特征金字塔的不同层次获得二阶段检测头的高分辨率特征和一阶段检测头的低分辨率特征。从而使得在不增加计算成本的情况下，更能获得二阶段检测头的高精度和一阶段检测头的高效率。

3、在模型预测的结构设计中，通过融合多尺度的特征来保证模型对于尺度变化范围较大的特征都能学习预测到。

4、在推理过程中，丢弃二阶段检测器，即采用纯单级检测器进行目标检测。该机制保证了该模型继承了两种体系结构的高效率和高精度。与传统的对象检测模拟方法不同，一阶段检测头和二阶段检测头共享同一骨干，模拟对象是在不同的检测头之间，而不是在不同的骨干之间。

附图说明

图1是本发明中特征提取骨干网络结构的示意图；

图2是本发明模型的训练和预测时的结构框架图；

图3是本发明中二阶段检测头的结构图；

图4是本发明中一阶段检测头的结构图；

图5是本发明构建交错特征金字塔的FPN特有的阶段的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

本实施的通过直接模仿两阶段特征来训练一阶段检测器的新颖高效框架，利用共享特征金字塔骨干网络提取高质量的特征，并用二阶段检测器学习这些特征得到的结果来指导一阶段检测器的训练过程，具体包括以下实施步骤：

步骤一、以resnet101和FPN网络构建模型的特征金字塔网络骨干网络：

在特征金字塔网络骨干上建立模型，以有效地提取多尺度特征，用于检测分布在大尺度上的目标。FPN网络一般采用横向连接，将自底向上特征与自顶向下特征结合，生成特征金字塔进行进一步处理。这里应遵循FPN中的常规表示，分别用CI和PI表示ResNet和FPN特征金字塔中的特征。由于一阶检测头对计算代价敏感，在RetinaNet中进行修改，将原始特征金字塔扩展到P7,P7相对于输入图像的步幅为128。

具体来说，P6在C5上采用3×3 stride-2卷积生成，P7在P6上采用ReLU后加3×3stride-2 conv计算。所有特征金字塔的通道数为256。在主干中有一个微妙但至关重要的修改，就是在训练阶段保持从P2到P7的金字塔特征，而不是P3到P7。然后将这些特征分组为{P2, P3, P4, P5, P6}和{P3, P4, P5, P6, P7}两组，构建交错特征金字塔。如图5所示，构建交错特征金字塔的FPN特有的阶段的示意图，这个是FPN特有的阶段，FPN一般将上一步生成的不同分辨率特征作为输入，输出经过融合后的特征，输出的特征一般以P作为编号标记，FPN的输入定为C3、C4、C5、C6、C7，其中C3、C4、C5、C6、C7代表各卷积层的输出，经过融合后，FPN的输出为P3、P4、P5、P6、P7。二阶段检测头使用的是前者的高分辨率特征集，而后者的低分辨率特征集用于一阶段检测器和细化模块。这种布置满足了单级检测器和两级检测的不同需要。对于one-stage的检测器，效率是最重要的，而在two-stage中作为二阶段检测器的检测精度则更为关键。低分辨率特征使一阶段检测器检测更快，高分辨率特征使二阶段检测器检测更准确。

在推断阶段，引入交错特征金字塔是没有成本的，因为只使用低分辨率的特征金字塔，并没有生成P2以提高效率。

步骤二、在FPN中提取特征后，采用Refinement模块过滤掉容易产生的负面影响，调整预定义锚盒的位置和大小，可以缓解极端类不平衡问题，在训练一阶段和二阶段检测器时提供更好的锚点初始化。

Refinement模块由一个3×3 卷积层和两个1×1 卷积层组成，在特征金字塔顶部进行类不可知的二分类和边界盒回归。改进模块调整后的锚盒将被转移到二阶段检测器和一阶段检测器进行稀疏和密集检测，只有排名最高的盒将参与二阶段检测器和一阶段检测器的训练过程。一般来说，对于该模型，Refinement模块的作用类似于FPN(两级检测器)中的RPN和RefineDet(一级检测器)中的ARM。

在特征金字塔P3到P7上分别定义了从32×32到512×512的锚。不同于以往在feature map的某个位置定义多个锚点，在1:1的长宽比下，每个位置只定义一个锚点。采用这种稀疏的锚点设置来避免特征共享，因为one-stage头中的每个锚点盒都需要有一个专属的、明确的特征来进行头的模拟。与传统的基于RoI的定位策略相比，Refinement模块中anchor-box的稀疏性更强，因此Refinement模块中anchor-box的标签分配与传统的基于RoI的定位策略不同。根据物体的尺度将它们分配到P3到P7的特征金字塔中，每个特征金字塔学习在特定尺度范围内检测物体。具体来说，对于pyramid PI，目标对象的有效标度范围计算为[SI×n1, SI×n2]，其中SI为级别l的基本标度，设置该系统来控制有效标度范围。我们实证设定SI = 4×2^I, n1 = 1, n2 = 2。任何小于S3 *n1或大于S7 *n2的对象将分别分配给P3或P7。

步骤三、二阶段检测器的分支，检测Refinement模块调整后锚盒的稀疏集，采用RoIAlign操作，为每个锚框生成7×7分辨率的位置敏感特征。然后将T-head分成两个分支进行分类和回归：

两阶段检测头，检测Refinement模块调整后锚盒的稀疏集。两阶段检测头的目的是提取高质量的特征，并用这些特征来指导一阶段检测头的训练过程。为了获得更好的特征，将两阶段检测头设计为具有高分辨率输入的重头，在推理过程中不会使用两阶段检测头。

如图2本发明模型的训练和预测时的结构框架图所示，交错特征金字塔高分辨率集合的二阶段检测头访问特征，即比原始特征提前一层。首先采用RoIAlign操作，为每个锚框生成7×7分辨率的位置敏感特征。然后将两阶段检测头分成两个分支进行分类和回归。

在分类分支中，每个锚盒的特征分别用两个1024-d fc层处理，然后用一个81-dfc层和一个softmax层预测分类概率。

在另一个分支中，采用4个连续的3×3对256个输出通道，然后将特征平化成一个向量。

接下来，平化特征将通过两个fc层依次转化为1024-d回归特征和4-d输出。如图2所示，在训练一阶段检测头时，以81-d的分类logits和1024-d的回归特征作为模拟目标。标签的分配基于阈值为0.6的IoU标准。分别利用交叉熵损失和L1损失对分类和回归分支进行优化。

步骤四、一阶段检测器的分支，将其设计成一个轻量级的网络，可以克服特征不对称，并学习通过模仿二阶段检测器来提取高质量的特征：

一阶段检测头是一种不采样直接对特征金字塔顶部进行密集检测的one-stage检测头。将一阶段检测头设计成一个轻量级的网络，可以克服特征不对称，并学习通过模仿二阶段检测头来提取高质量的特征。

如前所述，引入Refinement模块将破坏锚框与其相应特性之间的位置一致性。位置不一致会导致一阶段检测头和二阶段检测头表示面积的差异，不利于头部的模拟。因此应使用可变形卷积来捕获不对齐的特征。变形量由微网络计算，微网络将细化模块的回归输出作为输入。

一阶段检测头的架构如图2所示。微网络由三个1×1对流和64、128个中间通道组成。然后使用一个5×5可变形的256通道conv和两个sibling 1×1 convs提取1024-d特征用于分类和回归分支。然后用两个单独的1×1 convs来生成预测。为了进一步减少计算量，在最高分辨率P3中将5×5变形conv替换为3×3变形conv。为了语义一致性，保持二阶段检测头的标签分配策略和丢失函数不变。

在实验中发现，尽管Refinement模块已经剔除了一些容易的负样本，但特定类的正样本比例过低。为了解决这一问题，采用了硬负挖掘来缓解类不平衡问题，即在一阶段检测头中，总是选取顶端分类损失的box样本来优化分类损失。

步骤五、定义训练的损失函数，包含四个部分模拟损失、一阶段损失、二阶段的损失，Refinement模块的损失。利用缩小一阶段和二阶段检测器的结果差值损失来提升一阶段检测器的精度：

用Bs表示Refinement模块调整的所有锚盒的集合，Bt表示T-head采样的Bs的稀疏子集。基于Bt，将Bm定义为用于优化模拟损失的随机采样子集。给定Bm，通过对其应用T-head，可以得到对应的两阶段分级特征集F^tc和回归特征集F^tr。同样，也可以得到Bm在S-head中的分类回归特征，分别表示为F^sc和F^sr。具体来说，在一阶段检测头中，其输出特征图的每个像素对应于Bs中的一个锚盒。为了得到调整后锚盒的一阶段检测头特征，回溯到其初始位置，在S-head特征图中提取该位置的像素，N表示随机采样子集，两个求和分别表示两阶段回归特征集和分类特征集与一阶段回归特征集和分类特征集，不设上限及下限，i表示第i个特征。

本发明对模拟损失的定义具体如下:

其中，

和

为Bm在S-head中的分类回归特征，

和

为两阶段分级特征集。

最后，正式将多任务训练损失定义为:

L = LR + LS + LT +Lmimic

以上所述为本发明的较佳实施例而已，但本发明不应局限于该实施例和附图所公开的内容，所以凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，包括如下步骤：

S2、在FPN中提取特征后，采用Refinement模块过滤掉容易产生的负面影响，调整预定义锚盒的位置和大小，在训练一阶段和二阶段检测器时提供更好的锚点初始化；

S4、一阶段检测头的分支，将其设计成一个轻量级的网络，并学习通过模仿二阶段检测器来提取高质量的特征；

2.根据权利要求1所述的通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，所述步骤S1中，具体为，在RetinaNet中进行修改，将原始特征金字塔扩展到P7,P7相对于输入图像的步幅为128，具体来说，P6在C5上采用3×3 stride-2卷积生成，P7在P6上采用ReLU后加3×3 stride-2 conv计算，所有特征金字塔的通道数为256，在训练阶段保持从P2到P7的金字塔特征，然后将这些特征分组为{P2, P3, P4, P5, P6}和{P3, P4, P5, P6, P7}两组，构建交错特征金字塔，这个是FPN特有的阶段，FPN一般将上一步生成的不同分辨率特征作为输入，输出经过融合后的特征，输出的特征一般以P作为编号标记，FPN的输入定为C3、C4、C5、C6、C7，其中C3、C4、C5、C6、C7代表各卷积层的输出，经过融合后，FPN的输出为P3、P4、P5、P6、P7。

3.根据权利要求2所述的通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，所述步骤S2中，具体为，在特征金字塔P3到P7上分别定义从32×32到512×512的锚，在1:1的长宽比下，每个位置只定义一个锚点，采用这种稀疏的锚点设置来避免特征共享。

4.根据权利要求1所述的通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，所述步骤S3中，二阶段检测头的目的是提取高质量的特征，并用这些特征来指导一阶段检测头的训练过程，为了获得更好的特征，将二阶段检测头设计为具有高分辨率输入的重头，在推理过程中不使用二阶段检测头。

5.根据权利要求1所述的通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，所述步骤S4中，一阶段检测头为一种不采样直接对特征金字塔顶部进行密集检测的one-stage检测头，将一阶段检测头设计成一个轻量级的网络，以克服特征不对称，并学习通过模仿二阶段检测头来提取高质量的特征。

6.根据权利要求1所述的通过直接模仿两阶段特征搭建高效框架的方法，其特征在于，所述步骤S5中，对模拟损失的定义如下:

其中，

和

为Bm在S-head中的分类回归特征，

和

为两阶段分级特征集，N表示随机采样子集，两个求和分别表示两阶段回归特征集和分类特征集与一阶段回归特征集和分类特征集，不设上限及下限，i表示第i个特征。

7.最后，正式将多任务训练损失定义为:

L = LR + LS + LT +Lmimic