CN110516670A

CN110516670A - 基于场景级与区域建议自注意模块的目标检测方法

Info

Publication number: CN110516670A
Application number: CN201910790376.XA
Authority: CN
Inventors: 李志欣; 权宇; 魏海洋; 张灿龙
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-29
Anticipated expiration: 2039-08-26
Also published as: CN110516670B

Abstract

本发明公开一种基于场景级与区域建议自注意模块的目标检测方法，结合了多种先进的网络结构和理念，考虑到场景信息与语义信息对于视觉识别的重要性。首先构建深度可分离共享网络、场景级‑区域建议自注意模块与轻量化头部网络的目标检测模型；然后利用训练图像对目标检测模型进行训练，得到训练好的目标检测模型；最后将待测图像送入训练好的目标检测模型中，以获取图像中目标的位置信息与类别信息。本发明不仅仅局限于图像中目标物体的外观特征，而是将场景信息与物体之间的关系信息进行模型化特征提取处理，并根据结构预测出图像中的物体，从而能够大大提高检测的准确性。

Description

基于场景级与区域建议自注意模块的目标检测方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，具体涉及一种基于场景级与区域建议自注意模块的目标检测方法。

背景技术

目标检测作为图像处理和计算机视觉领域中的经典课题，从理论发展到实践中的应用都在稳步提升。其作为计算机视觉领域的基石，关注的是检测特定的物体目标，并要求同时获得该目标的类别信息以及位置信息。它不同于分类任务将目标划分为单个类别，而是给出对目标前景和背景的理解，从背景中分离出感兴趣的目标，并确定该目标的描述(类别和位置)。此外，目标检测除了作为经典计算机视觉任务的基础元素，并在实例分割和目标跟踪工作上有很大的延展空间。

从2013年开始，Girshick等提出了R-CNN网路框架后，便成为计算机视觉领域利用深度学习研究目标检测的开山之作，其通过训练AlexNet深度网络对生成的RegionProposals进行特征提取，实现了候选区域的提取、特征提取与待检测类别的分离，可以在不同类别间实现共用。即使同时检测多类，也仅仅是倍增判别和精修两步，通过简单线性运算的方法为目标检测发展方向提供了新的思路。

继R-CNN之后，Girshick等在2015年推出Fast R-CNN，考虑到R-CNN存在训练分步太多、时间和内存消耗较大以及测试阶段时间较慢的几个问题，并针对以上三个问题做出针对性改进：首先，卷积操作不再是针对每一个Region Proposal进行，而是整张图像；其次，感兴趣区域池化层(Region of Interest Pooling,ROI pooling)接受的输入除了Region Proposal，还有卷积层5输出的Feature Map；另外，在ROI pooling后，作者采用奇异值分解(Singular Value Decomposition,SVD)来简化全连接层(fully connectedlayer,FC layer)的计算，整个目标检测网络相对R-CNN构思更精巧，流程更为紧凑，大幅提升了目标检测的速度。

经过了R-CNN和Fast R-CNN的积淀，Girshick等在2016年提出新的Faster R-CNN，该网络结构框架的提出使得基于深度学习的目标检测方法随后涌现出大批的优秀的改进版本。在结构上，Faster R-CNN将特征抽取(Feature Extraction)、候选区域(RegionProposals)提取、边框回归(Bounding Box Regression)以及分类(Classification)整合在一个网络框架中，除了使综合性能提升较大，特别是在检测速度方面尤为明显。

2017年底，何凯明基于以往的Faster R-CNN架构提出了新的卷积神经网络MaskR-CNN，并一举完成了目标实例分割(Object Instance Segmentation)和目标关键点检测，该算法的提出不仅有效的完成了目标检测，同时也实现了高质量的语义分割。简而言之，Mask R-CNN算法思想的实现实际上是在原始的Faster R-CNN算法基础上增加FCN产生对应的物体掩膜(Object Mask)分支。再进一步细化，则是Fast R-CNN网络结合RPN网络、区域特征聚集方式(ROIAlign)和FCN组成的一个新的网络架构。

近期，中科院智能信息处理重点实验室发表了一篇“Structure Inference Net:Object Detection Using Scene-Level Context and Instance-Level Relationships(结构推理网络：基于场景级与实例级目标检测)”(发表于《Conference on ComputerVision and Pattern Recognition(计算机视觉和模式识别会议)》)的论文，其考虑到上下文信息对视觉识别准确率的提高上有着十分重要的意义。因此，该论文不仅考虑了一张图片中物体的外观特征，同时考虑了图片中的场景信息和物体之间的联系这两种上下文信息。通过将图片中的物体作为图模型中的一个节点，目标物之间的联系作为图模型中的边进而将目标检测问题转变为结构推理的问题。结构推理网络是在经典的检测网络上结合一个用于推理物体状态的图模型结构形成的检测器。该模型结构在PASCAL VOC和MS COCO数据集目标检测任务的提升上发挥了很大的作用。

不难看出，目前绝大部分的目标检测算法均是以残差网络作为基础框架，并通过改进残差网络结构来达到提升目标检测准确率的目的，但是这些方法已经无法满足目前对目标检测的要求，即使进一步改进也无法实现很大程度的提升。

发明内容

本发明所要解决的是目前大多数目标检测研究中只关注图像中目标感兴趣区域附近的局部信息，而导致目标检测的准确性不高的问题，提供一种基于场景级与区域建议自注意模块的目标检测方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于场景级与区域建议自注意模块的目标检测方法，具体包括步骤如下：

步骤1、构建基于深度可分离共享网络、场景级-区域建议自注意模块和轻量化头部网络的目标检测模型；

步骤2、利用训练图像对目标检测模型进行训练，得到训练好的目标检测模型；

步骤2.1、将训练图像送入到深度可分离共享网络中，得到训练图像的特征图；

步骤2.2、将特征图送入到场景级-区域建议自注意模块的3个并行的子分支，即语义分割分支、候选区域网络分支以及区域建议自注意分支；

在语义分割分支中：首先，利用全连接层可以对每个训练图像的特征图进行映射，形成一个特征向量来作为图模型中的一个节点信息；然后，将所有训练图像的特征向量作为图模型的节点信息；接着，将每个特征图中的每对感兴趣区域同步映射变换，然后进行级联操作，将感兴趣区域间的关系映射向量作为图模型中的边信息；最后，基于图模型的节点信息和边信息所获得的图模型结构，对其进行迭代更新节点的推理，则对应节点的最后一个状态即为预测相关感兴趣区域的类别与位置信息的关键，由此得到语义分割分支的特征图；

在候选区域网络分支中：首先，对训练图像的特征图进行卷积操作，以调整通道的维度；然后，对卷积后的特征图进行Softmax分类与Bbox reg回归操作；最后，对分类损失结果与回归结果进行数据处理，得到候选区域网络分支的特征图；

在区域建议自注意分支中：首先，利用自注意机制对训练图像的特征图进行稀疏数据的重要特征提取，获得特征图的背景信息特征；然后，将训练图像的特征图与候选区域网络分支的特征图进行融合，获得特征图的前景信息特征；最后，将特征图的背景信息特征和特征图的前景信息特征进行融合，实现前景与背景信息互补，从而获得区域建议自注意分支的特征图；

步骤2.3、将场景级-区域建议自注意模块的3个并行的子分支所获得的语义分割分支特征图、候选区域网络分支的特征图和区域建议自注意分支的特征图同时送入感兴趣区域进行池化处理，从而获得融合特征；

步骤2.4、将融合特征通过全连接层，对其进行尺寸的统一；

步骤2.5、将统一尺寸后的融合特征送入轻量化头部网络，在轻量化头部网络中通过一次全连接网络操作和分类与回归操作，由此得到训练好的目标检测模型；

步骤3、将待测图像送入训练好的目标检测模型中，以获取图像中目标的位置信息与类别信息。

上述深度可分离共享网络主要由主干网络和6个短连接组成。

上述主干网络依次包括第一层卷积层、第二层池化层、第三层残差层、第四层归一化层、第五层线性激活层、第六层归一化层、第七层池化层，第八层残差层、第九层残差层、第十层残差层、第十一层归一化层、第十二层线性激活层、第十三层归一化层、第十四层池化层，第十五层残差层、第十六层残差层、第十七层残差层、第十八层归一化层、第十九层线性激活层、第二十层归一化层、第二十一层池化层，第二十二层残差层、第二十三层残差层、第二十四层残差层、第二十五层归一化层、第二十六层线性激活层、第二十七层归一化层、第二十八层池化层，第二十九层残差层、第三十层残差层、第三十一层残差层、第三十二层卷积神经层、第三十三层归一化层、第三十四层线性激活层、第三十五层卷积神经层、第三十六层归一化层、第三十七层线性激活层、第三十八层池化层，第三十九层残差层、第四十层残差层、第四十一层残差层、第四十二层卷积神经层、第四十三层归一化层、第四十四层线性激活层、第四十五层卷积神经层、第四十六层归一化层、第四十七层线性激活层、第四十八层池化层，以及降维层；第一层卷积层的输入形成深度可分离共享网络的输入，降维层的输出形成深度可分离共享网络的输出。

上述6个短连接分别为：第一短连接连接第一层卷积层的头部与第七层池化层的尾部，并将第一层卷积层的输入与第七层池化层的输出相加后，输入到第八层残差层；

第二短连接连接第八层残差层的头部与第十四层池化层的尾部，并将第八层残差层的输入与第十四层池化层的输出相加后，输入到第十五层残差层；

第三短连接连接第十五层残差层的头部与第二十一层池化层的尾部，并将第十五层残差层的输入与第二十一层池化层的输出相加后，输入到第二十二层残差层；

第四短连接连接第二十二层残差层的头部与第二十八层池化层的尾部，并将第二十二层残差层的输入与第二十八层池化层的输出相加后，输入到第二十九层残差层；

第五短连接连接第二十九层残差层的头部与第三十八层池化层的尾部，并将第二十九层残差层的输入与第三十八层池化层的输出相加后，输入到第三十九层残差层；

第六短连接连接第三十九层残差层的头部与第四十八层池化层的尾部，并将第三十九层残差层的输入与第四十八层池化层的输出相加后，输入到降维层。

上述各层残差层的结构相同，其包括3层卷积层和1条短连接；3层卷积层即上层卷积层、中层卷积层和下层卷积层依次连接，上层卷积层的输入形成该残差层的输入，下层卷积层的输出形成该残差层的输出；短连接连接上层卷积层的头部与下层卷积层的尾部，并将上层卷积层的输入与下层卷积层的输出相加。

与现有技术相比，本发明结合了多种先进的网络结构和理念，考虑到场景信息与语义信息对于视觉识别的重要性。在该发明中提出一种目标检测算法，它不仅考虑了目标的视觉外观，而且利用了场景上下文信息和语义分段。因此，在利用这些结构化信息时，目标检测既是一个认知问题，也是一个推理问题。本发明不仅仅局限于图像中目标物体的外观特征，而是将场景信息与物体之间的关系信息进行模型化特征提取处理，并根据结构预测出图像中的物体，从而能够大大提高检测的准确性。

附图说明

图1为基于场景级与区域建议自注意模块的目标检测方法的原理图。

图2为深度可分离共享网络的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

参见图1，一种基于场景级与区域建议自注意模块的目标检测方法，其具体包括步骤如下：

步骤1、构建深度可分离共享网络、场景级-区域建议自注意模块与轻量化头部网络的目标检测模型。

本发明基于深度可分离共享网络、场景级-区域建议自注意模块与轻量化头部网络的目标检测模型，是一个融合语义信息与场景信息实现图像前景与背景互补的目标检测模型。首先用深度可分离共享卷及网络替换掉主干网络中部分的卷积残差模块，构建一个深度可分离共享卷积网络，以减少计算复杂度以及提升计算速度；然后将输出特征金字塔网络的特征图分别送入语义分割分支、候选区域网络分支以及区域建议自注意分支，进行场景级与区域建议自注意模块网络的构建，以提取到传统目标检测中局部性特征提取的局限性问题，并获取较全面的细节特征，避免局部特征提取的局限性；最后通过轻量化头部网络提升整个模型的计算速度。

(1)深度可分离共享网络

参见图2，本发明的深度可分离共享网络主要由主干网络和6个短连接组成。

上述主干网络依次为：第一层卷积层、第二层池化层、第三层残差层、第四层归一化层、第五层线性激活层、第六层归一化层、第七层池化层，第八层残差层、第九层残差层、第十层残差层、第十一层归一化层、第十二层线性激活层、第十三层归一化层、第十四层池化层，第十五层残差层、第十六层残差层、第十七层残差层、第十八层归一化层、第十九层线性激活层、第二十层归一化层、第二十一层池化层，第二十二层残差层、第二十三层残差层、第二十四层残差层、第二十五层归一化层、第二十六层线性激活层、第二十七层归一化层、第二十八层池化层，第二十九层残差层、第三十层残差层、第三十一层残差层、第三十二层卷积神经层、第三十三层归一化层、第三十四层线性激活层、第三十五层卷积神经层、第三十六层归一化层、第三十七层线性激活层、第三十八层池化层，第三十九层残差层、第四十层残差层、第四十一层残差层、第四十二层卷积神经层、第四十三层归一化层、第四十四层线性激活层、第四十五层卷积神经层、第四十六层归一化层、第四十七层线性激活层、第四十八层池化层，以及降维层而成；第一层卷积层的输入形成深度可分离共享网络的输入，降维层的输出形成深度可分离共享网络的输出。

上述6个短连接分别为：第一短连接连接第一层卷积层的头部与第七层池化层的尾部，并将第一层卷积层的输入与第七层池化层的输出相加后，输入到第八层残差层。第二短连接连接第八层残差层的头部与第十四层池化层的尾部，并将第八层残差层的输入与第十四层池化层的输出相加后，输入到第十五层残差层。第三短连接连接第十五层残差层的头部与第二十一层池化层的尾部，并将第十五层残差层的输入与第二十一层池化层的输出相加后，输入到第二十二层残差层。第四短连接连接第二十二层残差层的头部与第二十八层池化层的尾部，并将第二十二层残差层的输入与第二十八层池化层的输出相加后，输入到第二十九层残差层。第五短连接连接第二十九层残差层的头部与第三十八层池化层的尾部，并将第二十九层残差层的输入与第三十八层池化层的输出相加后，输入到第三十九层残差层。第六短连接连接第三十九层残差层的头部与第四十八层池化层的尾部，并将第三十九层残差层的输入与第四十八层池化层的输出相加后，输入到降维层。

上述各层残差层的结构相同，其包括3层卷积层和1条短连接。3层卷积层即上层卷积层、中层卷积层和下层卷积层依次连接，上层卷积层的输入形成该残差层的输入，下层卷积层的输出形成该残差层的输出。短连接连接上层卷积层的头部与下层卷积层的尾部，并将上层卷积层的输入与下层卷积层的输出相加。

(2)场景级-区域建议自注意模块

本发明考虑到图像中的视觉概念都是由场景、对象和关系的关键组成部分组成的有机体，在基于候选区域的深度学习方法的基础之上，通过融合对象或场景级上下文信息以及实例级建模(对象与对象之间的关系)捕获互补的上下文信息，共同帮助检测，从而获得意想不到的效果。在减少计算时间和参数数量的同时，还可以显著提升对图像中目标区域的细节特征的提取性能以及缓解有效特征损失，实现基于候选区域的深度学习方法准确率的提升。

(3)轻量化头部网络

根据引起头部网络复杂度增加的两个决定性因素：池化操作输出的特征图较厚和对特征图进行分类和回归的操作。本文尝试在基于MSCOCO数据集的Mask R-CNN目标检测框架上对池化操作输出的特征图从原来的81×p×p压缩到10×p×p，相当于把原来的3900多个通道压缩到490个通道，后续还会进一步尝试是否可以压缩到更小。但是由于压缩后的特征图是无法完成目标检测任务，即进行正常的分类和回归。所以，本文会在后面加入一个81类的全连接层，从而可以顺利完成目标检测任务，并在进一步实验分析中表明该方法在一定程度上速度明显提升。

步骤2、利用训练图像对目标检测模型进行训练，得到训练好的目标检测模型。

在本发明中，训练图像为PASCAL VOC和MS COCO两个数据集。

步骤2.1、将训练图像送入深度可分离共享网络进行预训练，并提取训练图像的特征图。

深度可分离共享网络有6个阶段，前四个阶段都是传统的残差网络模块，每个模块由卷积块(Conv-block)、批量归一化(Batch Normalization,BN)、激活函数层(RectifiedLinear Unit,ReLU)和最大池化层(Max pooling)以及标识块(Identity-block)组成；最后两个阶段是由残差卷积模块变形的可分离共享卷积模块构成，主要包括卷积块(Conv-block)、可分离共享卷积模块(Depth-wise conv,Poin-wise conv)、批量归一化(BatchNormalization,BN)、激活函数层(Rectified Linear Unit,ReLU)和最大池化层(Maxpooling)以及标识块(Identity-block)组成。

待训练图像会依次通过深度可分离共享网络的主干网络：经过第1阶段后，输出的特征图会送入第2阶段进行更深层次的特征图提取操作。从第2阶段所提取的特征图会直接送入到第3阶段进行特征图的提取操作。第4阶段接收从第3阶段输出的特征图，进行更深层次、更小目标的特征提取。将第4阶段输出的特征图送入第5阶段进行可分离共享卷积操作，通过上下层共享特征获取更精确的特征图。将第5阶段输出的特征图送入第6阶段进行可分离共享卷积操作获取预训练网络中的特征图。

将上述第2阶段到第5阶段输出的特征图分别通过1×1卷积核、256个通道和激活函数的操作以及2×upsample的上采样操作，分别得到特征图P2、P3、P4、P5、P6。这里不对第1阶段进行该操作，主要考虑该阶段输出的特征图属于浅层，误差较大。接下来将特征图P2、P3、P4、P5、P6统一通过256个通道进行3×3卷积操作。该操作主要用来消除上一阶段的上采样混叠效应。

步骤2.2、训练图像通过深度可分离共享网络进行预训练提取特征图后，会把提取的特征图分别送入到场景级-区域建议自注意模块的3个并行的子分支，即语义分割分支、候选区域网络分支以及区域建议自注意分支。

(1)语义分段分支(Semantic Segment Module,SSM)，

传统的语义分段其实是为了解决语义级别的图像分割问题，本发明采用语义分段分支实际上是为了获取特征中的场景级信息，以弥补传统目标检测中只关注感兴趣区域局部信息的劣势。利用全连接网络可以对图像进行像素级分类的特点，将输入的特征图进行全连接操作，从而得到固定长度的特征向量。为了更好的获得较强的语义特征，提高目标检测性能，这里将来自FPN的所有级别的信息合并为单个输出，实现高密度预测。

在语义分割分支中：利用全连接层可以对输入的特征图进行映射，形成一个特征向量来作为图模型中的一个节点的特点。我们将所有训练图像的特征图进行上述相同的处理操作，从而获取到该图像的场景信息。然后，将每对感兴趣区域映射变换后进行级联操作作为图模型里的边元素。综上所述，通过这种结构推理的方法来进行迭代更新节点，节点的最后一个状态便被用来预测相关感兴趣区域的类别及其位置信息。

步骤2.2.1、首先，语义分割分支接收来自上一阶段输出的特征图，然后，将特征图输入到全连接层进行处理。一方面，可以统一特征图的尺寸的大小；另一方面，通过全连接层的操作可以对输入的特征图形成一个特征向量；

步骤2.2.2、对输入的特征图进行卷积操作，将多尺度的特征图进行统一尺寸；

步骤2.2.3、对统一尺寸之后的特征图进行2×upsample上采样操作，将相同通道部分的特征图进行融合；

步骤2.2.4、将经过步骤步骤2.2.2、步骤2.2.3处理之后的特征图在进行一次卷积操作，该步骤是将卷积操作拆分成两个矩阵相乘，将卷积核和图像转成矩阵函数，最后会获得整张特征图映射形成的整张特征图的特征向量，并将其作为图模型中的节点，从而获取了该图像的全局的场景信息；

步骤2.2.5、与步骤2.2.4并行处理。对每个特征图中的每对感兴趣区域同步映射变换，然后进行级联操作，将感兴趣区域间的关系映射向量作为图模型中的边元素；

步骤2.2.6、通过步骤2.2.4与步骤2.2.5获取的图模型的结构进行迭代更新节点的推理，对应节点的最后一个状态便是用来预测相关感兴趣区域的类别与位置信息的关键。

(2)候选区域网络分支(Faster R-CNN中的结构，RPN)

通过RPN网络生成候选区域，并利用Softmax判断前景信息与背景信息，进一步获取精确的候选框。在候选区域网络分支中：将特征图送入候选区域网络后，其会在原特征图上快速自动的进一步生成更为深层、精确的类别信息与位置信息。

步骤2.2.1、对特征图进行1×1的卷积操作，这样可以用来调整通道的维度，降低运算量。

步骤2.2.2、在步骤2.2.1的基础之上，分别对特征图进行Softmax分类与Bbox reg回归操作。

步骤2.2.3、对步骤2.2.2获得的分类损失结果与回归结果进行数据处理，输出更精确的感兴趣区域。

(3)区域建议自注意分支(Region Proposal Attention Module,RPAM)，

通过引入注意力机制，试图互补前景信息与背景信息，且这个注意力模块将RPN分支的信息作用于RPAM分支。这样使得检测任务集中更多注意力在局部目标上，以促进背景语义的准确性。在RPAM的后面还加入了一个小的结构叫做背景选择，旨在过滤掉没有用的背景特征，也可以看做一个小的自注意机制。在区域建议自注意分支中：该部分主要是通过区域自注意机制(Proposal Attention Module,PAM)对背景信息进行再识别，并通过融合步骤10中的候选区域网络分支的结果，实现前景与背景信息互补的目的，从而达到提升目标检测精确度的效果。区域建议自注意分支主要是通过识别背景信息，以达到前景信息与背景信息互补的效果，从而大大的增强特征图的精确度的目的。其中，自注意机制就是通过获取的特征图自身的特征与获得的背景信息融合从而增加薄弱部分区域的精细度的机制。并输出图像目标的分类损失(class_logits)、修正损失(bbox_logits)以及特征图。

步骤2.3.1、利用自注意机制的知识构建一个区域建议的自注意分支，可以快速提取稀疏数据的重要特征，这样便可以获取特征图的背景信息特征；

步骤2.3.2、将自身输入的特征图与候选区域网络分支提取的特征图融合，从而增加该部分前景信息的信息量；

步骤2.3.3、将步骤2.3.1与步骤2.3.2分别获取的背景信息与前景信息进行融合，便可以实现前景与背景信息互补的目的，从而达到提升目标检测精确度的效果。

步骤2.3、将场景级-区域建议自注意模块的3个并行的子分支所获取的特征同时送入感兴趣区域(ROI)进行池化处理，从而获得融合特征。

步骤2.4、将获取的融合特征通过一个2048的全连接层，对其进行尺寸的统一。

步骤2.5、将统一尺寸后的融合特征送入头部网络(Head Network)，进行全连接层、分类和回归操作，由此得到目标检测模型。

本发明的目标检测模型可以实现多尺度、多类别图像精确而快速的目标检测行为，能够从输入的图像中获取目标精确的位置信息和类别信息，因而具有以下几个特点：

首先，针对深度可分离共享网络，引入MobileNet模型的核心—深度可分离卷积，将传统的卷积操作改为两层的卷积操作，在保证准确率的条件下，计算时间减少为原来的1/9，计算参数减少为原来的1/7。该发明以深度可分离卷积共享网络(DepthwiseSeparable Convolution Networks,DSCN)和特征金字塔网络(Feature PyramidNetworks,FPN)作为主干，之后分为三个并行分支，分别叫做语义分段模块(SemanticSegment Module,SSM)分支，RPN(Faster R-CNN中的结构)分支和区域建议自注意模块(Region Proposal Attention Module,RPAM)分支。

其次，场景级-区域建议自注意模块包括三个并行分支，即语义分割分支SSM、候选区域网络分支RPN以及区域建议自注意分支RPAM。

SSM分支：为了更好的获得较强的语义特征，提高目标检测性能，这里将来自FPN的所有级别的信息合并为单个输出，实现高密度预测。

RPN分支：通过RPN网络生成候选区域，并利用Softmax判断前景信息与背景信息，进一步获取精确的候选框。

RPAM分支：通过引入注意力机制，试图互补前景信息与背景信息，且这个注意力模块将RPN分支的信息作用于RPAM分支。这样使得检测任务集中更多注意力在局部目标上，以促进背景语义的准确性。在RPAM的后面还加入了一个小的结构叫做背景选择，旨在过滤掉没有用的背景特征，也可以看做一个小的自注意机制。

最后，轻量化头部网络融合三个分支并通过一次全连接网络操作和分类与回归操作，从而可以顺利完成目标检测任务，并在进一步实验分析中表明该方法在一定程度上速度明显提升。

步骤3、将测试图像全部送入目标检测模型，由此获取图像中目标的位置信息与类别信息。

本发明不仅仅局限于图像中目标物体的外观特征，而是将场景信息与物体之间的关系信息进行模型化特征提取处理，并根据结构预测出图像中的物体。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.基于场景级与区域建议自注意模块的目标检测方法，其特征是，具体包括步骤如下：

步骤2.4、将融合特征通过全连接层，对其进行尺寸的统一；

2.根据权利要求1所述的基于场景级与区域建议自注意模块的目标检测方法，其特征是，深度可分离共享网络主要由主干网络和6个短连接组成；

主干网络依次包括第一层卷积层、第二层池化层、第三层残差层、第四层归一化层、第五层线性激活层、第六层归一化层、第七层池化层，第八层残差层、第九层残差层、第十层残差层、第十一层归一化层、第十二层线性激活层、第十三层归一化层、第十四层池化层，第十五层残差层、第十六层残差层、第十七层残差层、第十八层归一化层、第十九层线性激活层、第二十层归一化层、第二十一层池化层，第二十二层残差层、第二十三层残差层、第二十四层残差层、第二十五层归一化层、第二十六层线性激活层、第二十七层归一化层、第二十八层池化层，第二十九层残差层、第三十层残差层、第三十一层残差层、第三十二层卷积神经层、第三十三层归一化层、第三十四层线性激活层、第三十五层卷积神经层、第三十六层归一化层、第三十七层线性激活层、第三十八层池化层，第三十九层残差层、第四十层残差层、第四十一层残差层、第四十二层卷积神经层、第四十三层归一化层、第四十四层线性激活层、第四十五层卷积神经层、第四十六层归一化层、第四十七层线性激活层、第四十八层池化层，以及降维层；第一层卷积层的输入形成深度可分离共享网络的输入，降维层的输出形成深度可分离共享网络的输出；

第一短连接连接第一层卷积层的头部与第七层池化层的尾部，并将第一层卷积层的输入与第七层池化层的输出相加后，输入到第八层残差层；

3.根据权利要求2所述的基于场景级与区域建议自注意模块的目标检测方法，其特征是，各层残差层的结构相同，其包括3层卷积层和1条短连接；3层卷积层即上层卷积层、中层卷积层和下层卷积层依次连接，上层卷积层的输入形成该残差层的输入，下层卷积层的输出形成该残差层的输出；短连接连接上层卷积层的头部与下层卷积层的尾部，并将上层卷积层的输入与下层卷积层的输出相加。