CN111259930A

CN111259930A - 自适应注意力指导机制的一般性目标检测方法

Info

Publication number: CN111259930A
Application number: CN202010020371.1A
Authority: CN
Inventors: 陈苏婷; 张良臣; 邹戈晨; 成泽华; 张闯
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-06-09
Anticipated expiration: 2040-01-09
Also published as: CN111259930B; WO2021139069A1

Abstract

本发明公开了一种自适应注意力指导机制的一般性目标检测方法，属于计算机视觉目标检测领域。包括交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)和并交比(IoU)自适应损失优化。交叉下采样可保留多尺度特征图中的整体细纹理特征，减少了在图像下采样过程中空间信息的丢失；SORR模块将特征图划分为n×n网格，并得到注意力得分图，提高了目标检测效率；APPK模块可以选择推荐区域来处理预测模块和多尺度目标之间的不匹配问题；IoU自适应损失函数用于处理训练中难样本(Hard example)的问题。该目标检测方法在准确度和检测速度方面都优于现有的一般性目标检测方法。

Description

自适应注意力指导机制的一般性目标检测方法

技术领域

本发明属于计算机视觉目标检测领域，尤其涉及一种自适应注意力指导机制的一般性目标检测方法。

背景技术

随着深度学习的广泛应用，计算机视觉技术得到了迅猛发展。计算机视觉是一门研究如何让机器替代人眼对目标进行识别、跟踪和检测的科学。它是一种对生物视觉的模拟，由计算机代替人类的大脑对图像数据进行相应的分析处理，最终希望计算机可以像人类一样通过“视觉”来观察和认识世界。

目标检测是计算机视觉的主要任务之一，其模型中的预测模块对目标的检测起到了非常重要的作用。现阶段的目标检测器分为两类：一种是二级检测器，需要先提取到感兴趣区域，然后对该区域进行分类；另一种是一级检测器，它将提取感兴趣区域和分类这两个任务融合到一个网络。在检测速度方面，一级检测器通常比二级检测器快，但在精度方面往往会稍逊一筹。

在检测原理方面，这两类检测器都是利用RoI池或3×3预测核从最后的特征图中提取特征进行检测。例如，基于卷积神经网络的主要目标检测器R-CNN是第一个成功将深度学习应用与目标检测上的算法，它是将区域建议的整体特征传输到全连接的预测层。但预测层需要固定输入端，这使得R-CNN特征向量空间的维度数无法改变。为了解决这个问题，提出了生成不依赖于输入图像大小的定长特征向量的空间金字塔池化(SPP)。但提取到的激活量远小于全连接层输入特征向量中元素的原始数量，从而导致SPP对小物体进行目标检测结果是次优的，而且存在权重值无法有效更新的问题。基于R-CNN改进而来的Fast R-CNN虽然采用RoI池化层提高了训练效率，但RoI池化层亦属于SPP的范畴，同样存在R-CNN类似的问题。为了快速检测检测，一级检测器建立在一个具有3×3预测核的全卷积网络上，但预测核的最终特征图的覆盖区域没有与小尺度或大尺度物相匹配，其可能的原因如下：(1)预测核对小物体提取特征时，将相邻对象的特征也提取了出来，从而导致错误的预测结果；(2)预测核对大物体提取特征时，3×3卷积核可能不足以捕获其主要部分，因此可能忽略检测所需的关键特征。

特征金字塔可以起到与图像金字塔相似的作用，具有尺度不变的特点。它将高度的语义特征与带有横向连接沙漏网络的低等级特征图相融合。但因为低分辨率的深度特征被融合到高分辨率的特征图中，特征金字塔并不总能够改善对小目标检测的结果。

发明内容

发明目的：针对以上问题，本发明提出一种自适应注意力指导机制的一般性目标检测方法，解决了在图像含有大目标物体和小目标物体的情况下，如何快速和准确地将它们区分并检测出来的问题，提出了SnipeDet算法。该算法可以更加准确高效地检测出图片中不同尺寸的物体，是全新的一般性目标检测算法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种自适应注意力指导机制的一般性目标检测方法，即本发明提出的SnipeDet算法，其包括四个部分：交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)和并交比(IoU)自适应损失优化；具体实现步骤如下：

步骤一，使用ResNet-101特征提取器作为目标检测模型的基本架构，对其卷积块进行修改，即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作，基于输入的待检测图像生成k个特征图，将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化；所述交叉下采样是一种特征增强的方法，保留图像整体细节纹理特征，并将它们融合到高语义的特征图中，加强具有代表性的特征；

步骤二，修改特征提取网络ResNet-101的最后一个卷积层作为目标检测模型的目标区域识别(SORR)模块，即从该卷积层输入端的特征图中选取正样本和负样本，根据样本所在特征图，通过卷积神经网络预测得到注意力得分图；

步骤三，将注意力得分图输入目标检测模型的注意力指导金字塔预测模块(APPK)，所述预测模块包括T种不同尺寸的卷积核，呈金字塔结构；选择注意力得分图中得分值大于设定阈值的单元所对应的区域作为检测的推荐区域；利用金字塔结构的卷积核对推荐区域进行卷积，并将T种卷积核所得到的预测结果并置，采用非极大值抑制的方法，得到最终的预测结果；

步骤四，使用并交比(IoU)自适应损失函数对目标检测模型进行训练，模型的输入是原始图像，模型的输出是目标所属类别和相应的位置；通过优化所述IoU自适应损失函数可以减小负样本分类错误导致的损失值；使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置。

进一步，所述步骤一，交叉下采样方法具体如下：

首先分别定义两个步长为2的2×2采样器S₁、S₂及其初始矩阵S₀：

其中A_x,y表示位于(x,y)的采样值，初始位置(x,y)为(0,0)；

使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样，交叉下采样中每进行一次滑动采样即生成四个特征图，并且这四个特征图的大小是原特征图的1/4，将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化，并通过ReLU的激活函数，输出新的特征图。

进一步，所述步骤二，所述卷积层的输入端为n×n的特征图，即n×n的注意力网格区域，每个单元包含一个激活特征向量，参数n由输入图片的尺寸和卷积层步长数决定，计算注意力网格区域的每个子单元的并交比(IoU)值，将其分类为正样本和负样本，其中正样本为目标物体的IoU值大于或者等于d的单元，负样本为目标物体的IoU值小于d的单元。

进一步，所述注意力网格区域的每个子单元样本分类表示如下：

其中

为样本分类函数，

表示注意力网格区域的第i行j列子单元网格(B表示目标的边界框，g表示网格单元)，

表示训练过程中数据集中图片的第k个标签(gt为网格单元的真值标签)，area()是面积计算函数，d是IoU阈值。

进一步，所述步骤二，使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图。

进一步，所述步骤三，预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核，分别检测图像中的不同尺度目标物体；

三种不同尺寸卷积核分别对应三种基本推荐区域(anchor box)形状，所述基本推荐区域形状包含五种长宽比(aspect ratio)：

不同尺寸目标的捕获需要使用不同尺寸的卷积核，1×1卷积核用于检测～32²像素的目标，3×3卷积核用于检测～96²像素的目标，5×5卷积核用于检测～160²像素的目标，不同形状目标的捕获需要使用不同长宽比例的卷积核(根据目标形状使用合适的长宽比)。

在预测模块中，正负样本分类方法定义为：

其中

为样本分类函数，

是以注意力网格为中心的推荐区域，其中(i,j)表示网格区域的坐标，m、n分别表示第m个推荐区域的形状和第n个长宽比，

为真值标签，e表示用于样本分类的IoU阈值。

进一步，所述步骤四，使用IoU自适应损失函数训练目标检测模型，所述自适应损失函数定义如下：

其中{P_n}为训练样本集合，pos为正样本，neg为负样本，

是对多类别的预测，

是对背景的预测，当一个注意力网格区域的得分高于预先设定的阈值，则[u≥1]为1，否则[u≥1]为0；权重因子e-IoU用于平衡介于负样本和正样本之间的训练损失函数。

进一步，所述步骤四，对目标检测模型进行训练，方法如下：

训练开始前，采用均值为0、标准差为0.01的高斯分布对目标检测模型的权重进行初始化；

训练的第一阶段，使用MS-COCO数据集对改进的ResNet-101网络进行训练，迭代次数设置为t₁次，自动调节改进的ResNet-101网络权重以识别目标区域，并将目标损失函数添加到预测的注意力得分图中；所述目标损失函数定义为：

其中{p_i,j}是注意力网格区域的预测置信度，

是其相对应的标签，λ是一个类平衡超参数，L_obj是一个二分类损失函数，用于预测目标区域和背景；

训练的第二阶段，固定ResNet-101网络的权重，对预测模块的权重进行训练，迭代次数设置为t₂次，使用一般性的损失函数：

其中[u≥1]是指示函数，训练样本为正样本时其输出为1，否则为0；

为softmax分类损失函数，p_n为样本类别预测值，

为样本类别标签；t₀为样本位置预测值，

为样本位置标签，

为鲁棒的L1位置回归损失函数，其定义为：

其中(x,y)表示推荐区域的中心位置，t和w表示边界框的宽度和高度；

使用IoU自适应损失函数来进一步训练预测模块，所述自适应损失函数定义如下：

其中

是多类预测得分，

是关于背景的置信度，当一个注意力网格区域的得分高于预先设定的阈值，则[u≥1]为1，否则[u≥1]就为0；在背景分类前引入权重因子e^-IoU来平衡介于负样本和正样本之间的训练损失函数；

在训练的第二阶段迭代完成后，在一般性的损失函数表达式中使用IoU自适应损失函数

替代

并在一般性的损失函数后面加上目标损失函数L_obj({p_i,j})，对目标检测模型进行第三次调参，迭代次数设置为t₃次；

目标检测模型最后的损失函数为：

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明在一般性目标检测领域中，提出了名为“SnipeDet”的金字塔预测卷积核算法，其中包含交叉下采样、SORR、APPK和IoU自适应损失；使用交叉下采样取代了传统下采样方法，保留了特征信息，增强了代表性的特征。SORR模块通过指导性地放弃一些只包含背景信息或包含可忽略目标信息的区域，只筛选出其中的正样本，提高了目标检测器的效率。APPK模块比起其他单尺度预测模块，能够更好地检测出不同大小的物体。若检测器含有大量潜在负样本(0.4<IoU<0.6,这些IoU值容易被误判为正样本)，IoU自适应损失函数可以一定程度上改善该检测器的检测准确性。本发明的SnipeDet算法结合了这四方面的优点，在检测效率和速度方面，超越了多目标检测领域的多数算法。

附图说明

图1是自适应注意力指导机制的一般性目标检测方法的流程示意图；

图2是交叉下采样模块的框架示意图；

图3是ResNet-101的conv3_4层输出端进行交叉下采样的细节示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

图1为本发明所提出的自适应注意力指导机制的一般性目标检测方法的流程示意图，其具体可分为交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)、IoU自适应损失优化。其具体流程步骤如下：

步骤一，使用ResNet-101特征提取器作为目标检测模型的基本架构，对其卷积块进行修改，即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作，基于输入的待检测图像生成k个特征图，将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化；所述交叉下采样是一种特征增强的方法，保留图像整体细节纹理特征，并将它们融合到高语义的特征图中，加强具有代表性的特征。

本实施例中，将ResNet-101中第三个卷积层的第四个模块(即conv3_4)的输出端进行交叉下采样操作生成特征图，再把提取出的特征图输入到后面卷积神经网络(即第四个和第五个卷积层)中进行降维和特征精细化。

针对选择区域最大值会丢失大量空间信息和采用3×3卷积层无法传输整体特征的问题，提出了交叉下采样的方法。所述交叉下采样方法的框架如图2所示，具体如下：

首先将用于下采样的特征图表示为

分别定义两个步长为2的2×2采样器S₁、S₂及其初始矩阵S₀：

其中A_x,y表示位于(x,y)的采样值，初始位置(x,y)为(0,0)；

使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样，不同于选取区域最大值，交叉下采样中每进行一次滑动采样即生成四个特征图，如图2中的四个级联小方块所示，它们是组成四个不同下采样特征图的重要部分，在图2中这四个不同下采样特征图用不同的灰度进行表示，并且这四个特征图的大小是原特征图的1/4，但并没有丢失任何空间信息，将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化，并通过ReLU的激活函数，输出新的特征图。

输出的新特征图定义为

图3为改进的ResNet-101的conv3_4层输出端进行交叉下采样的细节示意图。对改进的ResNet-101的conv3_4层输出端进行第一次交叉下采样的操作，然后对下采样后的特征图再进行第二次交叉下采样的操作。经过两次下采样后，生成了两组特征图，第一组是第一次下采样得到的特征图，第二组是第二次下采样得到的特征图。将第一组下采样得到的特征图通过1×1和3×3卷积层加以改善后作为conv4_1；而第二组下采样特征图也同样先通过1×1和3×3卷积层加以改善后，再与conv5_3相级联。交叉下采样保留了多尺度特征图的整体细节纹理特征，并将它们融合到高语义的特征图来增强用于进行准确目标分类和定位的代表性特征。

步骤二，修改特征提取网络ResNet-101的最后一个卷积层(即对第五个卷积层的修改)作为目标检测模型的目标区域识别(SORR)模块，即从该卷积层输入端的特征图中选取正样本和负样本，根据样本所在特征图，通过卷积神经网络预测得到注意力得分图。本实施例中，使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图。

所述卷积层的输入端为n×n的特征图，即n×n的注意力网格区域，每个单元包含一个激活特征向量，计算注意力网格区域的每个子单元的并交比(IoU)值，将其分类为正样本和负样本，其中正样本为目标物体的IoU值大于或者等于d的单元，负样本为目标物体的IoU值小于d的单元。本实施例中，d＝0.6。

参数n由输入图片的尺寸和卷积层步长数决定，如图1中的SORR模块有7×7的注意力网格区域(即输入图片为224×224的尺寸，卷积网络步长为32)。每个注意力网格区域包含小目标的编码特征或大目标的部分特征，也可能包含一些背景信息，因此SORR模块需要学习明确地将具有目标的正样本选择为推荐区域。

所述注意力网格区域的每个子单元样本分类表示如下：

其中

为样本分类函数，

本实施例中，预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核，分别检测图像中的不同尺度目标物体；

在预测模块中，正负样本分类方法定义为：

其中

为样本分类函数，

为真值标签，e表示用于样本分类的IoU阈值。本实施例中，e＝0.6。

所述自适应损失函数定义如下：

其中{P_n}为训练样本集合，pos为正样本，neg为负样本，

是对多类别的预测，

是对背景的预测，当一个注意力网格区域的得分高于预先设定的阈值，则[u≥1]为1，否则[u≥1]为0；权重因子e^-IoU用于平衡介于负样本和正样本之间的训练损失函数。

对目标检测模型进行训练，方法如下：

训练的第一阶段，使用MS-COCO数据集对改进的ResNet-101网络进行训练，迭代次数设置为120k次，自动调节改进的ResNet-101网络权重以识别目标区域，并将目标损失函数添加到预测的注意力得分图中。其目标损失函数定义为：

其中{p_i,j}是注意力网格区域的预测置信度，

是其相对应的标签，λ是一个类平衡超参数(设定为0.5)，L_obj是一个二分类损失函数(用于预测目标区域和背景)。

训练的第二阶段，固定ResNet-101网络的权重，对预测模块的权重进行训练，迭代次数设置为60k次，使用一般性的损失函数：

为softmax分类损失函数，p_n为样本类别预测值，

为样本类别标签；

为鲁棒的L1位置回归损失函数，t₀为样本位置预测值，

为样本位置标签，其定义为：

其中(x,y)表示推荐区域的中心位置，t和w表示边界框的宽度和高度。

负样本(0.4＜IoU＜0.6)的特征和与之对应的正样本有较强的相关性，因此对负样本的检测很容易出错，导致softmax分类损失函数偏大。SORR模块的预处理和预测模块卷积核的金字塔结构使得模型存在很多潜在的负样本。为了减小负样本检测出错对softmax分类损失函数的影响，提出了IoU自适应损失函数来进一步训练预测模块，其自适应损失函数如下所示：

其中

是多类预测得分，

是关于背景的置信度，当一个注意力网格区域的得分高于预先设定的阈值，则[u≥1]为1，否则[u≥1]就为0；在背景分类前引入权重因子e^-IoU来平衡介于负样本和正样本之间的训练损失函数。

在训练的第二阶段迭代60k次后，使用IoU自适应损失函数

替代

并在一般性的损失函数后面加上L_obj({p_i,j})，对目标检测模型进行第三次调参，迭代次数为180k次。其最后的损失函数为：

本发明的SORR模块忽略了没有目标存在的区域，通过在训练中放置推荐区域来指导APPK模块，求取注意力得分图的均值来指导多尺度卷积核的检测，提高了模型的检测速度。在接下来的多尺度预测卷积核中，SORR模块建立了一种注意机制，在它得到预测置信度后，将推荐区域放置在那些预测置信度大于阈值0.6的注意力网格区域中。如图1所示，在SORR模块的注意力得分图中，灰度值越深的单元代表着其单元的预测置信度越大。

Claims

1.一种自适应注意力指导机制的一般性目标检测方法，其特征在于：该方法包括以下步骤：

步骤一，使用ResNet-101特征提取器作为目标检测模型的基本架构，对其卷积块进行修改，即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作，基于输入的待检测图像生成k个特征图，将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化；

步骤四，使用并交比(IoU)自适应损失函数对目标检测模型进行训练，模型的输入是原始图像，模型的输出是目标所属类别和相应的位置；使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置。

2.根据权利要求1所述的一种自适应注意力指导机制的一般性目标检测方法，其特征在于：所述步骤一，交叉下采样方法具体如下：

其中A_x,y表示位于(x,y)的采样值，初始位置(x,y)为(0,0)；

3.根据权利要求1所述的一种自适应注意力指导机制的一般性目标检测方法，其特征在于：所述步骤二，所述卷积层的输入端为n×n的特征图，即n×n的注意力网格区域，每个单元包含一个激活特征向量，参数n由输入图片的尺寸和卷积层步长数决定，计算注意力网格区域的每个子单元的并交比(IoU)值，将其分类为正样本和负样本，其中正样本为目标物体的IoU值大于或者等于d的单元，负样本为目标物体的IoU值小于d的单元。

4.根据权利要求3所述的一种自适应注意力指导机制的一般性目标检测方法，其特征在于：所述注意力网格区域的每个子单元样本分类表示如下：