CN110533084B

CN110533084B - 一种基于自注意力机制的多尺度目标检测方法

Info

Publication number: CN110533084B
Application number: CN201910738932.9A
Authority: CN
Inventors: 任卫军; 丁国栋; 王茹; 侯晓波; 葛瑶
Original assignee: Changan University
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2022-09-30
Anticipated expiration: 2039-08-12
Also published as: CN110533084A

Abstract

本发明公开了一种基于自注意力机制的多尺度目标检测方法，采用基于自注意力特征选择模块的自下而上和自上而下两种多尺度特征融合方式能够结合目标的低层特征和高层特征，增强特征图的表示能力和捕捉上下文信息的能力，提高目标检测阶段的稳定性与鲁棒性；而且本发明利用自注意力模块进行特征的重标定，计算量更小，兼顾了检测精度和速度，对解决目标检测中密集物体、小目标和遮挡目标等的检测问题具有重要意义。

Description

一种基于自注意力机制的多尺度目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于自注意力机制的多尺度目标检测方法。

背景技术

目标检测是计算机视觉领域的基础问题，目的是找出图像或视频中感兴趣的物体，并确定它们的类别、位置和大小，在行人检测、安全检查以及无人驾驶等领域都有重要的研究和应用价值。随着深度卷积网络的快速发展，目标检测算法的精度不断提高。目前主流的目标检测算法主要分为两类：基于候选区域(Region Proposal)的检测算法和基于包围边框回归的检测算法。

基于候选区域的目标检测算法的思路是首先使用某种区域推荐方法提取所有兴趣区域(Region of Interest，RoI)，然后对这些区域逐个地进行目标的分类和定位。早在期工作中，R-CNN使用选择性搜索或者Edge Boxes算法从图像中获取候选区域，然后对每一个候选区域进行分类和边框调整。SPP-net、Fast-RCNN和Faster-RCNN等算法都是对R-CNN模型进行改进，SPP-net使用空间金字塔池化(Spatial Pyramid Pooling，SPP)代替了R-CNN中对原始图像进行的剪裁、拉伸和缩放等归一化操作，支持数据的多尺度输入。Fast-RCNN使用ROI Pooling代替R-CNN中比较耗时的区域推荐算法，而Faster-RCNN则在此基础上提出了一个区域推荐网络(Region Proposal Network，RPN)，提高了提取候选区域的效率。虽然基于候选区域的目标检测算法检测精度和速度逐渐提高，但由于这些模型都是分阶段检测的，所以这种方法的检测速度还是很慢，不能达到实时性的要求。

为了弥补基于候选区域目标检测算法在速度方面的缺陷，Redmon等人提出了YOLO(You Only Look Once)模型，YOLO模型是一个端到端的深度卷积网络，该模型的思想是使用单个端到端的网络直接对整幅图像进行特征提取，而不是在每一个候选区域上单独进行。YOLO模型将图像划分成多个网格，然后在每一个网格上进行目标的分类和定位回归，这种方法只对图像特征图进行一次检测，因而大大提高了检测速度，从根本上解决了目标检测的实时性问题，但该方法检测精度不高，而且密集小目标的漏检问题较为严重。

发明内容

针对上述缺陷，本发明提供了一种基于自注意力机制的多尺度目标检测方法，本发明基于自注意力机制的多尺度特征融合，能够充分利用多尺度特征中的上下文信息，提高特征图的表示能力和捕捉上下文信息的能力，具有更高的检测精度，解决了密集小目标场景下的漏检率高和检测精度低的问题。

为了达到上述目的，本发明采用以下技术方案予以解决。

一种基于自注意力机制的多尺度目标检测方法，包括以下步骤：

步骤1，获取训练样本集，选取基础网络，构造多尺度特征金字塔，作为特征提取网络，提取待检测图像的卷积特征图；

步骤2，基于自注意力机制，构建自注意力特征选择模块；并将自注意力特征选择模块设置在多尺度特征金字塔的相邻卷积层之间，结合设置于所述多尺度特征金字塔输出端的检测模块，形成多尺度目标检测网络；自注意力特征选择模块用于将多尺度卷积特征图进行融合；

其中，所述自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种；

步骤3，将训练样本集中的样本作为多尺度目标检测网络的输入，采用动量梯度下降法对多尺度目标检测网络进行优化，得到优化后的多尺度目标检测网络；

步骤4，将待检测图像输入优化后的多尺度目标检测网络进行目标检测，得到目标的类别及其对应的置信度。

进一步地，所述训练样本集包含原始训练样本和将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到的变换样本，还包含将原始训练样本和所述变换样本进行一定比例放大后得到的放大样本。

进一步地，所述构造多尺度特征金字塔具体为：

首先，获取覆盖训练样本集中目标样本的所有分辨率；

其次，根据所述目标样本的所有分辨率确定多尺度特征金字塔的层数及每层对应的分辨率；

最后，将基础网络的最后两层卷积层作为多尺度特征金字塔的最底端两层，并在其后依次添加对应分辨率的额外的卷积层，得到特征提取网络，即为多尺度特征金字塔；

其中，每个分辨率对应多尺度特征金字塔中的一层，每层对应的特征图的大小为待检测图像的大小除以该层对应的分辨率，并对结果进行向上取整操作。

进一步地，所述获取覆盖训练样本集中目标样本的所有分辨率为：对训练样本集中的目标样本进行统计，根据统计结果将目标样本按照大小进行分类，得到n个目标尺度类别；选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。

进一步地，采用动量梯度下降法对多尺度目标检测网络进行优化，按照以下步骤实施：

步骤3.1，初始化多尺度目标检测网络；

步骤3.2，将训练样本集中的训练样本图像作为多尺度目标检测网络的输入，每次输入一个训练样本图像，训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合，并将特征融合后的图像输入检测模块进行检测，输出检测结果；

步骤3.3，将检测结果与当前训练样本图像的真实目标标注结果进行比较，采用反向传播算法调整多尺度目标检测网络的参数，并基于调整后的目标检测网络迭代处理后续的训练样本图像。

进一步地，所述初始化多尺度目标检测网络为：采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层，其余层采用随机初始化。

进一步地，所述训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合，其具体为：

训练样本图像经过每个卷积层进行对应尺度的特征提取，得到卷积特征图；卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合，输出融合后的特征图像；

进一步地，所述自下而上和自上而下的特征融合，其具体步骤为：

步骤3.2a，从特征提取金字塔的最底层开始至顶层，依次进行自下而上的特征融合，即采用步长为4的最大池化将第i(i＝1，2，3，...，n-2)层特征图的分辨率降低为第i+2层特征图的分辨率，再通过自注意力特征选择模块进行特征的选择和过滤，然后将处理后的第i层特征图加到第i+2层特征图上；

步骤3.2b，从特征提取金字塔的顶层开始，对经过自下而上特征融合后的特征图进行自上而下的特征融合，即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率，再通过自注意力特征选择模块进行特征的选择和过滤，然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上。

其中，所述特征提取金字塔的各卷积层自下而上依次编号。

进一步地，所述通过自注意力特征选择模块进行特征的选择和过滤，其具体为：

首先，设定输入特征图的大小为w×h×c，h、w和c分别表示特征图的长、宽和通道数；

然后，对于通道注意力模块，其处理过程为：先通过全局平均池化将特征图的尺寸挤压为1×1×c，再通过全连接层fc1将通道数降为c/16，然后通过全连接层fc2将通道数升到原通道数c，以拟合通道之间复杂的非线性关系，之后利用Sigmoid函数将各个通道的权重归一化至区间[0，1]，最后将权重通过广播乘法加权到输入特征图上，完成特征在通道位置上的重标定；

对于空间注意力模块，其处理过程为：通过1×1的卷积将输入特征图的通道数挤压为1，得到大小为w×h的分数图，然后将每个分数图对应的权重通过广播乘法加权到输入特征图上，完成特征在空间位置上的重标定。

与现有技术相比，本发明的有益效果为：

本发明采用基于自注意力特征选择模块的自下而上和自上而下两种多尺度特征融合方式能够结合目标的低层特征和高层特征，增强特征图的表示能力和捕捉上下文信息的能力，提高目标检测阶段的稳定性与鲁棒性；而且本发明利用自注意力模块进行特征的重标定，计算量更小，兼顾了检测精度和速度，对解决目标检测中密集物体、小目标和遮挡目标等的检测问题具有重要意义。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为传统的多尺度目标检测网络SSD模型的结构示意图；

图2为本发明实施例中的通道注意力模块的结构示意图；

图3为本发明实施例中的自注意力特征选择模块的结构示意图；

图4为本发明实施例中的多尺度特征融合结构的示意图；

图5为采用本发明方法和传统SSD模型对密集小目标场景的检测结果图；

图6为采用本发明方法和传统SSD模型对上下文目标场景的检测结果图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，以下实施例仅用于说明本发明，而不应视为限制本发明的范围。

本发明实施例提供一种基于自注意力机制的多尺度目标检测方法，其网络结构与传统的SSD类似，结构如图1所示，该方法包括如下步骤：

步骤1，获取训练样本集，选取基础网络，构造多尺度特征金字塔，作为特征提取网络，用于提取待检测图像的卷积特征图；

其具体按照以下步骤实施：

步骤1.1，获取原始训练样本，将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到变换样本，将原始训练样本和变换样本分别进行一定比例放大后得到的放大样本；由原始训练样本、变换样本和放大样本共同组成训练样本集；

步骤1.2，选取ResNet网络或VGGNet网络为基础网络，构造多尺度特征金字塔；其具体步骤如下：

首先，获取覆盖训练样本集中目标样本的所有分辨率；即对训练样本集中的目标样本进行统计，根据统计结果将目标样本按照大小进行分类，得到n个目标尺度类别；选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。

本实施例中基础网络为ResNet网络时，获得的多尺度特征金字塔的尺度信息为40*40，20*20，10*10，5*5，3*3，1*1；其中，ResNet最后两层卷积层的尺度大小分别为40*40和20*20，然后根据尺度信息额外增加相应的卷积层，即大小分别为10*10，5*5，3*3，1*1的卷积层；将ResNet最后两层和新增加的四层卷积层组合得到多尺度特征金字塔。

其中，自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种。

本实施例中，自注意力特征选择模块为并列的通道注意力模块和空间注意力模块，其中，通道注意力模块的处理过程如图2所示。

步骤3，将训练样本集中的样本作为多尺度目标检测网络的输入，采用动量梯度下降法对多尺度目标检测网络进行优化，得到优化后的多尺度目标检测网络；按照以下子步骤实施：

步骤3.1，初始化多尺度目标检测网络；即采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层，其余层采用随机初始化。

步骤3.2，将训练样本集中的训练样本图像作为多尺度目标检测网络的输入，每次输入一个训练样本图像，训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合，并将融合后的特征图像输入检测模块进行检测，输出检测结果；

其具体为：训练样本图像经过每个卷积层进行对应尺度的特征提取，得到卷积特征图；卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合，输出融合后的特征图像；具体处理过程如图4所示。其具体的提取和融合的子步骤为：

步骤3.2a，从特征提取金字塔的最底层开始至顶层，依次进行自下而上的特征融合，即采用步长为4的最大池化将第i(i＝1，2，3，...，n-2)层特征图的分辨率降低为第i+2层特征图的分辨率，再通过自注意力特征选择模块进行特征的选择和过滤，然后将处理后的第i层特征图加到第i+2层特征图上，其结构如图2所示。

其中，所述特征提取金字塔的各卷积层自下而上依次编号。

本实施例中，通过自注意力特征选择模块进行特征的选择和过滤，如图3所示，其具体过程为：

待检测图像即为测试集，将测试集输入优化后的多尺度目标检测网络，输出目标的类别及其对应的置信度。

为了验证本发明所述基于自注意力机制的多尺度目标检测方法的合理性和有效性，选取PASCAL VOC 2007和PASCAL VOC 2012两个标准数据集进行实验，并采用mAP(meanaverage precision)作为检测精度的客观评价指标，fps(frames per second)作为检测速度的客观评价指标。训练开始前，首先为每一个真实框(ground truth box)匹配一个交并比(Intersection over Union，IoU)最大的默认框(default boxes)，然后对剩余的默认框，选择一个与其IoU最大的真实框，若该IoU大于设定的阈值(如0.5)，则将其匹配到这个真实框，将所有匹配成功的真实框和默认框组成正样本集。为了保证正负样本的平衡，在未匹配成功的默认框中，SSD使用hard negative mining方法，根据置信度误差选取一定量的负样本，以保证正负样本比例接近1∶3。

本实施例选取VGGNet为基础网络，设置输入图像的分辨率为300×300，使用动量梯度下降法进行优化，动量因子(momentum)为0.9。初始学习率为0.001，迭代70000次后将学习率调整为0.0001，迭代90000次后学习率调整为0.00001，循环110000次后终止训练。批大小(mini-batch)为32，权重衰减(weight decay)为0.0005。分别采用本发明方法和传统的YOLO、YOLOv2、RON、SSD(网络结构如图1所示)、DSSD和R-SSD网络进行PASCAL VOC2007test测试集测试，结果如表1所示，可以看出，本发明提出的检测方法检测精度最高，说明经本发明方法具有更强的特征提取能力和捕捉上下文信息的能力，而且在目标的检测阶段具有更强的稳定性与鲁棒性。

表1各目标检测网络的检测精度和速度

采用本发明方法和传统SSD模型分别对密集小目标场景和上下文目标场景的检测结果图如图5和图6所示，其中，每组结果对比图中，左边为传统方法，右边为本发明方法，图中检测框上面的文字信息为目标的类别及其置信概率。从图5和图6结果可以看出，这些测试图像的背景比较复杂，目标的尺度较小，物体间的遮挡也比较严重，传统方法只能检测出部分明显的大目标，而对小目标或有遮挡的目标存在漏检现象；而本发明方法能够准确的检测出各个类别的目标，解决了复杂背景下的物体检测问题。说明本发明方法不但可以有效降低密集小目标场景下的漏检率，而且在上下文目标场景中，也可以根据目标的上下文信息提高检测精度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些改动和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自注意力机制的多尺度目标检测方法，其特征在于，包括以下步骤：

步骤1，获取训练样本集，选取基础网络，构造多尺度特征金字塔，作为特征提取网络，其用于提取待检测图像的卷积特征图；

2.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法，其特征在于，步骤1中，所述训练样本集包含原始训练样本和将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到的变换样本，还包含将原始训练样本和所述变换样本进行一定比例放大后得到的放大样本。

3.根据权利要求2所述的基于自注意力机制的多尺度目标检测方法，其特征在于，步骤1中，所述构造多尺度特征金字塔具体为：

首先，获取覆盖训练样本集中目标样本的所有分辨率；

4.根据权利要求3所述的基于自注意力机制的多尺度目标检测方法，其特征在于，所述获取覆盖训练样本集中目标样本的所有分辨率为：对训练样本集中的目标样本进行统计，根据统计结果将目标样本按照大小进行分类，得到n个目标尺度类别；选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。

5.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法，其特征在于，步骤3中，采用动量梯度下降法对多尺度目标检测网络进行优化，按照以下步骤实施：

步骤3.1，初始化多尺度目标检测网络；

6.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法，其特征在于，所述初始化多尺度目标检测网络为：采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层，其余层采用随机初始化。

7.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法，其特征在于，所述训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合，其具体为：

训练样本图像经过每个卷积层进行对应尺度的特征提取，得到卷积特征图；卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合，输出融合后的特征图像。

8.根据权利要求7所述的基于自注意力机制的多尺度目标检测方法，其特征在于，所述自下而上和自上而下的特征融合，其具体步骤为：

步骤3.2b，从特征提取金字塔的顶层开始，对经过自下而上特征融合后的特征图进行自上而下的特征融合，即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率，再通过自注意力特征选择模块进行特征的选择和过滤，然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上；

其中，所述特征提取金字塔的各卷积层自下而上依次编号。

9.根据权利要求8所述的基于自注意力机制的多尺度目标检测方法，其特征在于，所述通过自注意力特征选择模块进行特征的选择和过滤，其具体为：