CN111797846B

CN111797846B - 一种基于特征金字塔网络的反馈式目标检测方法

Info

Publication number: CN111797846B
Application number: CN201910276244.5A
Authority: CN
Inventors: 刘怡光; 畅青; 冯晶明; 苗文娟; 薛凯
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-06-21
Anticipated expiration: 2039-04-08
Also published as: CN111797846A

Abstract

本发明提出了一种新颖的、稳定的单阶段目标检测方法，以提高目标检测精确度和召回率。本方法采用了残差网络和特征金字塔等目标检测技术：利用残差网络的跳跃连接不断加深目标检测模型的深度，有效提高网络的分辨能力和优化速度；利用特征金子塔网络将深层网络和浅层网络互连，使得浅层高分辨率的特征图同样包含高层级的语义信息；同时，本方法创新性的提出了一个新的关系模块，称为L2Smodule，该模块通过将顶层特征图上对大目标精确的预测结果反馈到浅层特征图上，对不同尺度的目标间的相互关系进行有效建模，从而通过相对精确的大目标的检测结果促进小目标的检测。实验结果表明本方法实现了比目前常用的顶级目标检测方法更好的检测性能。

Description

一种基于特征金字塔网络的反馈式目标检测方法

技术领域

本发明涉及一种基于深度卷积神经网络的目标检测方法，用来提高目标检测模型对图片中目标，尤其是微小目标的识别效率以及定位精度。本方法首先在深层级的特征图上对大目标进行预测，然后将预测结果反馈到浅层特征图上，相互融合之后再对微小目标进行预测，从而更好的对图片中各种尺度的目标进行识别。属于图像处理领域。

背景技术

目标检测作为计算机视觉的一项基础性工作，在行人检测、车牌识别、无人驾驶等领域都具有重要的研究价值，因而长期受到了广泛性的关注。目前，顶级的目标检测方法几乎都采用深度卷积网络的架构，并且主要划分为两个流派：一个是以faster RCNN为主导，基于候选区域范式的两阶段目标检测方法。这类检测器首先产生候选区域（regionproposals），然后对候选区域进行目标分类以及位置精修。另一个是端到端的以RetinaNet，SSD等为主导的单阶段目标检测方法，这类方法不需要region proposal阶段，而是直接产生预测目标的类别概率和位置坐标值。无论是单阶段检测方法还是两阶段检测方法，其发展和改进都是为了获得更高的检测精度以及更快的检测速度。

单阶段检测方法不需要产生region proposals的过程，因而网络模型更加简洁高效，但精度却很低。尤其是在微小目标的检测上，其精确度和召回率都远远低于RFCN等两阶段检测方法。为此，很多单检测方法尝试采用新颖的网络结构设计和一些巧妙的训练技巧去提高目标检测的精度。YOLO的衍生模型（YOLOv2,v3）利用Batch Normalization、HighResolution Classifier等一系列技巧，并产生了显著的效果。SSD的衍生模型（也就是DSSD，FSSD，ESSD）以不同的方式将各个层的特征图进行融合，然后在融合的特征图上进行预测。尽管目标检测的模型和方法发展迅速，但目前几乎所有主流的方法都独立的预测图片中的各个目标，而忽略了目标之间的相互联系。为此，本方法创新性的提出了一个全新的模块L2S-module，该模块会将深层特征图上对大目标精确的预测结果反馈到浅层特征图上，利用神经网络对不同尺度的目标间的相互关系进行建模，从而利用相对精确的大目标的检测结果促进网络对小目标的检测，有效地缓解了单精度检测器低精确度和低召回率的弊病，并进一步提高了目标检测的性能与精度。

发明内容

本发明所要解决的技术问题是：利用卷积神经网络不断挖掘图片中不同尺度目标之间的相关性，进而大大提高单阶段目标检测方法的精度。

本发明的解决方案是：对于特征金字塔网络产生多个尺度的特征图，先在深层特征图上预测相对较大的目标，然后将预测结果整合处理后反馈到浅层特征图上，以此方式建立深层特征图上的预测结果到浅层网络的反馈链路。大目标的预测信息通过反馈链路与浅层级特征图相互融合后再预测相对较小的目标。从而提高小目标的检测效果。

本发明为实现上诉解决方案，及其方法步骤如下所示：

1.训练ResNet01目标分类网络，将其作为目标检测网络的骨架。

2.在目标分类网络上搭建特征金字塔网络。

3.引入L2S moudle。

4.在最终形成的特征图上搭建目标分类子模型和坐标回归子模型。

5.采用多任务损失函数进行网络训练。

附图说明

说明书附图图1是本发明的总体网络架构图。

说明书附图图2是 L2S module的详细结构图。特征金字塔上某一层的检测结果经处理后与下一层特征金子塔的特征图相融合，形成下一层参与预测的特征图。

说明书附图图3是目标分类子模块。对于参与预测的宽为W，高为H的特征图，使用256个卷积核特征提取3次后，使用 K×A个卷积和卷积后产生最终的目标类别得分。

说明书附图图4是坐标回归子模块。

具体实施方案

下面结合附图对方法的实施作进一步的详细描述：

1.参照说明书附图图1，因为残差（ResNet）网络通过跳跃连接的方式可以使网络更深、更容易优化，本方法首先训练ResNet101目标分类网络，然后删除分类网络最后的softmax层，将剩余部分作为本方法的目标骨架。本方法将骨架网络总体划分为{C₁, C₂,C₃, C₄, C₅}5个层次，并在{C₃, C₄, C₅}层上搭建特征金子塔网络{ FP₁, FP₂, FP₃, FP₄,FP₅}。

2. 参照说明书附图图1，特征金字塔模块（feature pyramid net）以自顶向下的方式通过与残差网络进行侧向连接生成。其中，FP₄由 C₅经过3×3的卷积层以及2×2的最大池化层后形成； FP₅由FP₄经过3×3的卷积层以及2×2的最大池化层后形成；FP₃由FP₄进行上采样，经3×3卷积后与C₅进行侧向连接后形成；FP₂,FP₁ 与 FP₃类似。

3. 除了特征金字塔结构，本方法创新性的提出了一个全新的模块：L2S（Large toSmall） module。L2S module通过将深层特征图上对大目标精确的预测结果反馈到浅层特征图上，对不同尺度的目标间的相互关系进行建模。参照说明书附图图2，L2S module的输入是特征金子塔网络的某一层FP_low以及其上一层对较大目标的预测结果O_top，这些预测结果本质上是T=4×A+K×A张特征图。其中，A是每一个层级上默认框的种类数，K为目标类别数。为了降低参数，本方法对这些预测结果进行简化处理，抽取每一个位置得分最高的预测值（4个坐标值，1个类别得分，1个类别值）形成6个特征图。经过上采样后（形成E_top），作为一种残差结构与FP_low进行融合，生成最终参与预测的特征图F_low。

4. 为了使目标定位更加准确，本方法在参与最终预测的特征图{F1,F2,F3,F4,FP5}(FP5作为特征金子塔的顶层特征图，不进行L2S的处理)上设置9种类型的默认框，对应3种不同的尺度{2⁰,2^1/3,2^2/3}和3种不同的长宽比{1:1,1:2,2:1}。这些默认框所覆盖的面积为{32²,64²,128²,256²,512²},分别对应{ F₁, F₂, F₃, F₄, FP₅}。本方法对目标的定位实际上是通过预测目标相对于默认框坐标的偏移值实现的。

5. 采用全卷积网络对目标的类别和默认框的坐标偏移值进行预测。参照说明书附图图3，分类子模型是使用256个3×3的卷积核进一步对参与预测的特征图F进行特征提取，再通过K×A个3×3的卷积核卷积之后，采用sigmoid激活函数得到最终的目标类别得分。回归子模型与分类子模型类似，只是在提取特征之后直接用4×A个卷积核卷积之后得到最终的坐标偏移值，参照说明书附图图4。

Claims

1.一种基于特征金字塔网络的反馈式目标检测方法，具体步骤为：

（1）训练目标分类网络ResNet101，并去除最后的softmax层，将其作为整体方法的网络骨架，并将该骨架总体分为{ C1, C2, C3, C4, C5}5个层次；

（2）通过自顶向下和侧向连接的方式，在{C3, C4, C5}之上建立特征金字塔结构{FP1, FP2, FP3, FP4, FP5}；其中，FP4由 C5经过3×3的卷积层以及2×2的最大池化层后形成； FP5由FP4经过3×3的卷积层以及2×2的最大池化层后形成；FP3由FP4进行上采样，经3×3卷积后与C5进行侧向连接后形成；FP2由FP3进行上采样，经3×3卷积后与C4进行侧向连接后形成；FP1由FP2进行上采样，经3×3卷积后与C3进行侧向连接后形成；

（3）搭建L2S模块，该模块通过将深层特征图上对大目标精确的预测结果反馈到浅层特征图上，对不同尺度的目标间的相互关系进行建模，具体步骤为：首先在特征金字塔网络的顶层特征图上预测大目标，对特征图上预测结果进行简化处理，抽取每一个位置得分最高的预测值形成6个特征图，对简化后的特征图上采样，使其与下一层特征图具有相同的尺寸，将上采样后的特征图与特征金字塔上同尺寸的浅一层的特征图进行融合，作为参与预测的特征图，循环进行以上步骤，直到最浅层特征图上的预测结果产生；

（4）在最终参与预测的特征图{ F1, F2, F3, F4, FP5}上建立目标分类子方法和坐标值回归子模块，采用全卷积的方式对每一个位置的目标类别和坐标值进行预测；其中，分类子模型是使用256个3×3的卷积核进一步对参与预测的特征图进行特征提取，再通过K×A个3×3的卷积核卷积之后，采用sigmoid激活函数得到最终的目标类别得分；回归子模型是使用256个3×3的卷积核进一步对参与预测的特征图进行特征提取，在提取特征之后直接用4×A个卷积核卷积之后得到最终的坐标偏移值；其中，A是每一个层级上默认框的种类数，K为目标类别数；

（5）利用多任务损失函数对整体的网络方法进行训练，训练过程中保持骨架网络的参数不变。