CN110852383A

CN110852383A - 基于注意力机制深度学习网络的目标检测方法及装置

Info

Publication number: CN110852383A
Application number: CN201911100964.2A
Authority: CN
Inventors: 苗书宇; 李华宇; 刘天弼; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-28
Anticipated expiration: 2039-11-12
Also published as: CN110852383B

Abstract

本发明提供一种基于注意力机制深度学习网络的目标检测方法，其特征在于，通过含有注意力机制模块的目标检测模型对待检测图像进行特征图提取并从中检测出目标的位置和类别，注意力机制模块包括：至少一个注意力模块M1，用于根据特征图生成相同大小注意力权重矩阵并作用于该特征图；至少一个注意力感受野模块M2，用于对特征图进行特征提取；以及至少一个注意力特征融合模块M3，用于对网络不同层次的特征进行融合。该目标检测方法在具有高检测准确率的基础上还保证了高检测速度，同时模型的结构简洁且计算量小。

Description

基于注意力机制深度学习网络的目标检测方法及装置

技术领域

本发明属于计算机视觉以及人工智能技术领域，涉及一种在复杂生活的场景下的进行特定目标的检测的方法及装置，具体涉及一种基于注意力机制深度学习网络的目标检测方法及装置。

背景技术

在当前的计算机视觉领域，深度学习已经得到了快速的发展。使用基于卷积神经网络的模型方法，被广泛的应用在计算机视觉的各个领域，如目标检测、图像分类、语义分割、实例分割等任务。其中目标检测是一项十分重要而又充满挑战性的工作，目标检测任务可分为两个关键的子任务：目标分类与目标定位。

目标分类是指：将一张图片中包含的目标对象，目标对象为一个或多个，将其利用方法对其类别正确的进行一一对应识别，识别的方法是给包含的目标输出一组代表不同类别可能性的数值，使用最大的数值代表该类别。

目标定位是指：将图片的包含的一个或多个目标所在的位置，使用特定的形状进行标出，目前在该领域常用的方法是使用矩形框将包含的目标进行正确框出。

目前，目标检测已经在速度与精度上达到了很好的程度，现有的目标检测的方法主要分为一阶段模型和二阶段模型。一阶段模型是将目标检测问题定位为回归问题，将一张图片输入神经网络模型，经过非线性函数拟合直接回归得出目标的类别和位置。二阶段模型是将目标检测的问题分为两个步骤，第一个步骤是使用卷积模型先预提取包含目标的感兴趣区域，然后将感兴趣区域进行使用第二部分的网络模型进行分类与位置的回归。对于一阶段模型，其优势是检测速度快，但准确率还有待提升；相反的，对于二阶段模型，其优势是准确率高，但是检测速度很慢。

在一阶段模型中，为了提高目标检测的准确率，目前最常用的做法是增加神经网络模型的复杂度。然而，增加神经网络复杂度带来的问题也很大，一方面，在一定程度上限制了其速度优势，另一方面更大的模型意味着更多的计算量，对硬件设备的要求也越高。

发明内容

为解决上述问题，提供一种能够对待测目标图像进行目标位置和类别的检测、同时其中的注意力网络模块结构简洁、计算量小的目标检测方法，本发明采用了如下技术方案：

本发明提供了一种基于注意力机制卷积神经网络模型的目标检测方法，其特征在于，通过含有注意力机制模块的目标检测模型对待检测图像进行特征图提取并从中检测出目标的位置和类别，注意力机制模块包括：至少一个注意力模块M1，用于根据特征图生成相同大小注意力权重矩阵并作用于该特征图；至少一个注意力感受野模块M2，用于对特征图进行特征提取；以及至少一个注意力特征融合模块M3，用于对网络不同层次的特征进行融合，其中，注意力模块M1由shortcut支路、multi-branch支路以及合并层构成，shortcut支路用于将注意力模块M1的输入直接作为输出F或是将注意力模块M1的输入进行少许卷积处理为输出F并输出给合并层，multi-branch支路具有两个对称互补相反的分支结构，在分支结构对注意力模块M1的输入进行处理后，multi-branch支路还对两个分支结构的输出进行合并操作、使用卷积进行平滑操作、最后通过softmax得到输出W，合并层用于将输出F以及输出W合并后输出，注意力感受野模块M2包含基础部分以及卷积部分，基础部分用于对注意力感受野模块M2的输入通过多分支进行处理，卷积部分用于对基础部分的输出通过连接操作层、卷积操作层以及注意力模块M1进行处理，注意力特征融合模块M3用于下采样操作、特征融合操作、注意力模块M1以及融合之后的平滑卷积操作对输入进行处理。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，分支结构中含有至少两个卷积层，且每一个卷积层均跟随着激活函数与归一化处理，分支结构最终输出的特征图大小不变且与原输入的特征图大小一致。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，卷积层使用不同的激活函数以及不同的归一化方法进行处理。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，multi-branch支路进行的合并操作包含连接操作或者相加操作。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，使用卷积进行平滑操作包含至少一个卷积层进行的平滑操作。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，合并层将输出F以及输出W合并所使用的公式为F+aW，式中，a为固定的权值或是可训练的参数。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，注意力感受野模块M2中的注意力模块M被1插入在连接操作之前、连接操作与卷积操作之间或卷积操作之后，注意力特征融合模块M3中的注意力模块M1被设置在上采样之后或者特征融合之后。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，上采样方法包括线性插值、反卷积或SP卷积。

本发明提供的基于注意力机制卷积神经网络模型的目标检测方法，还可以具有这样的技术特征，其中，融合之后的平滑卷积操作可以包括不同类型的平滑操作。

本发明还提供了一种基于注意力机制卷积神经网络模型的目标检测装置，其特征在于，用于对待检测图像进行特征图提取并从中检测出目标的位置和类别，包括：预处理部，用于对待检测图像进行预处理从而得到预处理图像；以及目标检测部，用于对预处理图像进行目标检测从而检测出目标的位置和类别，存储有一个含有注意力机制模块的目标检测模型，其中，注意力机制模块为权利要求1至9中任意一项的注意力机制模块。

发明作用与效果

根据本发明的基于注意力机制卷积神经网络模型的目标检测方法，由于采用了注意力机制模块对目标检测模型进行优化，因此，可以通过该注意力机制模块中的注意力模块、注意力感受野模块以及注意力特征融合模块更好地进行特征的提取。具体地，注意力模块能够对包含物体的重要区域进行了较大权重的考虑，从而使得目标检测模型在准确度上有了很大的提升；注意力感受野模块则帮助特征图在提取特征的时候，更加聚焦的关注包含目标物体的区域，使得目标检测模型能够更加智能的模仿人眼的视觉系统；注意力特征融合模块能够让深层信息经过上采样后与低层信息融合的过程更加具有选择性，增强了有利于目标检测任务的信息，抑制了不利于信息检测任务的信息。因此通过本发明的目标检测模型，可以极大的提高了一阶段目标检测的精度，并且能够让浅层网络得到更丰富的语义特征(利于小目标的检测)以及让深层网络得到更加细致的细节(利于大目标的检测)。

另外，本发明的注意力机制模块结构简单、计算量较小，因此可以很方便的进行快速的训练与测试部署，需要的硬件条件也比较低。与现有的一阶段模型相比，其在保持速度的情况下，准确度更高；与现有的二阶段模型相比，其在准确度较高的情况下，速度较快。

附图说明

图1是本发明实施例中基于注意力机制深度学习网络的目标检测方法的流程图；

图2是本发明实施例中注意力模块的结构示意图；

图3是本发明实施例中注意力感受野模块的结构示意图；以及

图4是本发明实施例中注意力特征融合模块的网络层结构图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于注意力机制深度学习网络的目标检测方法及装置作具体阐述。

<实施例>

本实施例中，采用的数据集为PASCAL VOC数据集。该PASCAL VOC数据集是一个被广泛使用的十分具有挑战性的包含了20个类别的生活场景的在目标检测领域公开的数据集。该数据集中，图片的分辨率大小不等，包含了9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。对于每一个图片，包含了原图以及原图片中包含目标的位置和类别信息。

另外，本实施例实现的硬件平台需要一张NVIDIA GTX 1080Ti来进行GPU加速。

本实施例中对待检测图像进行识别时，首先对数据集中的图片进行预处理，然后搭建完成完整的基于注意力机制的目标检测模型并训练该目标检测模型，最后将预处理后的图片训练完成的目标检测模型从而得到目标物体的位置和类别。本发明的核心是目标检测模型，其中包含了以下几个不同的模块：注意力模块、注意力感受野模块、注意力特征融合模块、完整的网络模型。

图1是本发明实施例中基于注意力机制深度学习网络的目标检测方法的流程图。

如图1所示，基于注意力机制深度学习网络的目标检测方法包括如下步骤：

步骤S1，获取待检测图像并进行预处理，从而得到相应的预处理图像。待检测图像为需要进行目标检测的图像。

本实施例中，待检测图像为基于PASCAL VOC数据集的测试集图像，预处理为常规的预处理，例如进行图像增强、归一化等操作。

步骤S2，搭建用于对待检测图像进行目标检测的目标检测模型。

本实施例的步骤S2中，目标检测模型的基础框架为SSD网络，在该SSD网络中将注意力模块M1、注意力感受野模块M2以及注意力特征融合模块M3加入其中，即完成了初始目标检测模型的构建，其初始化的参数为随机设置的模型参数。

图2是本发明实施例中注意力模块的结构示意图。

如图2所示，注意力模块M1的结构包括并行的shortcut支路和multi-branch支路，以及最后的合并层。

具体地，shortcut支路用于直接将注意力模块M1的输入不经过卷积处理(或是经过少许的卷积处理)直接输出到最终的合并层；multi-branch支路则需要对输入的特征图进行一系列的处理从而将处理结果输出到合并层。为方便起见，shortcut支路的输出命名为输出F，multi-branch支路的输出命名为输出W。

在multi-branch支路的处理过程中，特征图首先进入左右两个分支(以下称左分支以及右分支)，这两个分支形成对称互补相反的结构。如图2所示，本实施例中multi-branch支路的左右分支都设有两个卷积层：

以左分支为例，首先进入第一个卷积核大小为3卷积层(在其他实施例中，卷积核的大小可以为3、5、7等等，具体的数字可以根据具体的数据集进行调整)，在第一个卷积层的后面还跟着激活函数和归一化处理，激活函数可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用Batch Normalization、Group Normalization等不同的归一化方式，并使用空洞数rate＝3、5、7等不同大小的空洞卷积卷积，以及Group组卷积，Group的数值根据具体的输入图像大小而定。然后进入第二个卷积层，此卷积层的卷积核大小相较于的第一层卷积核较小(图2中第二个卷积层的卷积核为1)，并且在第二个卷积层后面跟着激活函数和归一化处理，激活函数也可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用Batch Normalization、Group Normalization等不同的归一化方式。

以右分支为例，首先进入第一个卷积层，此卷积层的卷积核大小相较于的第二层卷积核较小，并且在卷积后面跟着激活函数和归一化处理，激活函数可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用Batch Normalization、GroupNormalization等不同的归一化方式。然后进入第二个卷积层，卷积核的大小为3(该卷积核的数值与左分支中第一个卷积层相对应)，在卷积后面跟着激活函数和归一化处理，激活函数可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用BatchNormalization、Group Normalization等不同的归一化方式，并使用空洞数rate＝3、5、7等不同大小的空洞卷积卷积，以及Group组卷积，Group的数值根据具体的输入图像大小而定。

在其他实施例中，左分支以及右分支可以包含更多的卷积层，例如包含第三层卷积、第四层卷积等。

经过左右两个分支后的特征图，还需要通过特征融合组合在一起，该特征融合可以通过像素Add操作或Concatenate操作的方式完成。经过特征融合之后的特征图被进一步送入卷积层处理。

该特征图接下来所进入的第一个卷积层，卷积核大小为1，在该第一个卷积层中，卷积核还可以设定为3、5、7等，但需要相对应地增加padding等不同的保证特征图大小不变、让通道数减小到原输入特征通道数的操作方式。然后经过第二层卷积层，卷积核的大小为3(此处卷积核的大小可以根据具体的数据集进行调整)，在卷积后面跟着激活函数和归一化处理，激活函数可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用Batch Normalization、Group Normalization等不同的归一化方式，并可以根本情况使用空洞数rate＝3、5、7等不同大小的空洞卷积卷积，以及Group组卷积，Group的数值根据具体的输入图像大小而定。

特征图经过卷积层之后，最后输入一个softmax函数，计算中每一个位置所对应的权重W(即输出W)。

在其他实施例中，经过特征融合之后的特征图可以经过不同数目、不同卷积核、不同padding、stride等配置的卷积层。

合并层用于将shortcut支路的输出F，以及multi-branch的输出W做最后的合并，合并方法为F+aW，式中，a为权重参数，该权重参数可以是能够训练的可变参数或是直接赋值的不可变参数。

最终得到最终的特征图所对应的attention权值特征图。完成注意力模块的完整结构设计。

图3是本发明实施例的注意力感受野模块的结构示意图。

如图3所示，本发明的注意力感受野模块M2的结构主要包含基础部分以及卷积部分。

其中，基础部分为一个包含multi-branch的、由多分支组成的模块，该基础部分的支路数量可以根据实际需要进行设计(例如、如图3所示的设计)。卷积部分用于对multi-branch的输出进行合并以及卷积，本实施例在合并时使用的方式是concatenate操作，同时后接一个卷积层进行特征的平缓。此卷积层的可以由不同卷积核组成，包括不同大小的kernel size、不同的padding、不同的stride、不同的空洞卷积等。

同时，在卷积部分的concatenate与卷积层之间，本实施例还加入了注意力模块M1，从而达到更合理的模仿人眼在视觉任务中对目标中心的重点注意，以及包含目标区域的聚焦。在其他实施例中，注意力模块M1加入的位置，还可以放在concatenate操作之前或是卷积层之后。

最终，注意力感受野模块M2的输出为包含了注意力权重映射的保持特征图大小不变的特征图。

图4是本发明实施例中注意力特征融合模块的网络层结构图。

如图4所示，在注意力特征融合模块M3中，大小为HxWxC(H为特征图的长，W为特征图的宽，C为特征图的通道数)的原图像的特征图首先在经过下采样后变为原特征图的1/2，即特征图变为0.5Hx0.5WxC，然后对其就那些2倍的上采样。该上采样的方式分为两种：第一种(即图4中所采用的上采样方式)，将下采样得到的特征图经过卷积层，从而使该特征图的通道数C变为最终最预测的通道数C’，即0.5Hx0.5Wx4C’。再将得到的特征图输入到sub-pixel卷积层，将其变为HxWxC’，从而完成上采样的过程；第二种，对下采样得到的特征图使用双线性插值或者反卷积，直接上采样到HxWxC’大小的特征图。

对于完成上采样的特征图HxWxC’，将会与原特征图HxWxC进行特征融合的操作，亦对应图4中符号

所对应步骤，然而在特征融合之前还需要进行两步操作。第一步操作：将原特征图HxWxC通过一个卷积层即图4最左边的1x1Conv部分，该1x1Conv部分的具体设置与上述的卷积层设置相似，其目的是完成通道数的下降，即使得原特征图由HxWxC变为HxWxC’，从而用于特征的融合。第二步操作：在上采样后添加注意力模块M1，原因是在上采样后的特征，一部分特征信息对于目标的检测是有利的，对于这部分信息需要加强其作用，一部分特征信息对于目标的检测是抑制的，对于这部分信息需要抑制其信息，亦即，对于有利的信息添加一个正能量的权重，对于不利的信息添加一个负能量的权重，添加上述的注意力模块M1可以完成此任务。将第一步操作与第二步操作得到的特征进行特征融合，此特征融合的方式可以包括特征元素相加和通道concatenate连接。

特征融合之后，再输入卷积层进行特征的平滑操作，卷积操作的卷积核大小可以为3、5、7等，并增加相对应的padding等不同的保证特征图大小不变、让通道数减小到原输入特征通道数的操作方式。然后经过第二层卷积层，卷积核的大小为3、5、7等，具体的数字可以根据具体的数据集进行调整，在卷积后面跟着激活函数和归一化处理，激活函数可以使用Relu激活函数、LeakyRelu激活函数等，归一化处理可以使用Batch Normalization、Group Normalization等不同的归一化方式，并根本需求使用空洞数rate＝3、5、7等不同大小的空洞卷积卷积，以及Group组卷积，Group的数值根据具体的输入图像大小而定。

最终，注意力特征融合模块M3的输出为进行了注意力权重分配的包含多尺度信息特征图。

通过将上述注意力模块M1、注意力感受野模块M2以及注意力特征融合模块M3加入SNN网络，即可得到本实施例所需要的初始目标检测模型，接下来，还需要通过步骤S3对该初始目标检测模型进行训练。

本实施例中，注意力模块M1、注意力感受野模块M2以及注意力特征融合模块M3按顺序组合，将M1、M2、M3分别集成在现有SSD目标检测框架中。

在其他实施例中，注意力模块M1、注意力感受野模块M2以及注意力特征融合模块M3的位置和数量可以根据数据集的大小、硬件资源的条件进行适当调整。

步骤S3，采用训练集对步骤S2构建的目标检测模型进行模型训练。

本实施例中，采用Pascal VOC数据集作为训练集。具体地，将Pascal VOC数据集中包含24,640个物体的9963张标注过的图片进行水平翻转、亮度改变等不同的数据增强方式，并将其Resize固定的大小，然后对其进行归一化处理，最后得到的多张图像数据即为本实例训练所使用的训练集。

进一步，将上述训练集的图像分批(batch)输入目标检测模型进行训练，每次进入目标检测模型训练的训练图像为32张，一共进行300轮的迭代训练。

在模型训练的过程中，每次迭代的具体过程是：将训练图像依次进行前向传播，使用最后一层的输出模型参数分别计算出损失误差(SoftMax Loss交叉熵损失，Square Loss平方差损失)，然后将计算得到的损失函数反向传播，进行网络参数的更新。

本实施例中，当目标检测模型被训练至模型收敛，即进入步骤S4并利用该目标检测模型识别生活场景中图片的包含的目标物体。

步骤S4，将步骤S1中经过预处理获得的预处理图像输入完成了步骤S3的训练的目标检测模型，从而通过该模型进行预处理图像的特征图提取从而输出目标的位置和类别。

进一步，本实施例采用Pascal VOC2007测试集作为待测的图像度对本实施例中的目标检测模型进行测试，其中的目标物体是训练数据集中的20个类别的物体目标。测试后，本实施例中训练好的注意力机制神经网络模型对该测试集中的检测精度mAP为82.3％。同时，采用现有技术中的其他物体检测模型对同样的测试集进行了对比测试，其结果如下表所示：

表1方法以及其他现有技术在Pascal voc2007测试集的测试结果

表1中，Fast RCNN、Faster RCNN、RON384++、R-FCN是现有技术中二阶段方法中在该数据集中表现很好的几个算法，SSD、DSSD、Yolov2、Yolov3、DES、refinedet、RFBNet是现有技术中一阶段方法中在该数据集中表现很好的几个算法，另外mAP(％)代表识别的准确度，其值越大越好，FPS为一秒可以处理的图像张数，亦越大越好。

通过表1中的测试结果可以看出，相比较其他的优秀的目标检测算法，本发明的方法不仅仅在准确度上达到了目前为止最好的效果，同时在检测速度方面也具有很好的表现。该目标检测模型很好的解决了一阶段方法中速度快，但是准确度不高的问题。

实施例作用与效果

根据本实施例提供的基于注意力机制卷积神经网络模型的目标检测方法，由于采用了注意力机制模块对目标检测模型进行优化，因此，可以通过该注意力机制模块中的注意力模块、注意力感受野模块以及注意力特征融合模块更好地进行特征的提取。具体地，注意力模块能够对包含物体的重要区域进行了较大权重的考虑，从而使得目标检测模型在准确度上有了很大的提升；注意力感受野模块则帮助特征图在提取特征的时候，更加聚焦的关注包含目标物体的区域，使得目标检测模型能够更加智能的模仿人眼的视觉系统；注意力特征融合模块能够让深层信息经过上采样后与低层信息融合的过程更加具有选择性，增强了有利于目标检测任务的信息，抑制了不利于信息检测任务的信息。因此通过本发明的目标检测模型，可以极大的提高了一阶段目标检测的精度，并且能够让浅层网络得到更丰富的语义特征(利于小目标的检测)以及让深层网络得到更加细致的细节(利于大目标的检测)。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，实施例中目标检测模型的基础框架为SSD网络，然而在其他实施例中，本发明的目标检测模型在采用任意其他的目标检测框架作为基础的网络结构均可以实现效果的优化。同时，本发明实施例中的注意力机制模块，不仅仅在一阶段目标检测方法中起到作用，在二阶段方法同样适用。

在例如，实施例中的目标检测模型仅仅采用了三个注意力模块，在实际的应用中，注意力模块的使用越多则模型的效果越好，但是会以部分速度作为代价。

另外，实施例中提供了一种基于注意力机制卷积神经网络模型的目标检测方法。然而，为了实际使用时更为方便，实施例中的训练好的目标检测模型也可以打包并存储在一个目标检测部中，该目标检测部可以与能够实施步骤S1的预处理部形成一个专用于对视频进行目标检测的装置，其可以用于多路实时视频流的场景下，例如对监控视频流进行实时预处理以及实时人群密度估计，从而让监管人员根据人群密度估计结果做出预警。

Claims

1.一种基于注意力机制深度学习网络的目标检测方法，其特征在于，通过含有注意力机制模块的目标检测模型对待检测图像进行特征图提取并从中检测出目标的位置和类别，所述注意力机制模块包括：

至少一个注意力模块M1，用于根据所述特征图生成相同大小注意力权重矩阵并作用于该特征图；

至少一个注意力感受野模块M2，用于对所述特征图进行特征提取；以及

至少一个注意力特征融合模块M3，用于对网络不同层次的特征进行融合，

其中，所述注意力模块M1由shortcut支路、multi-branch支路，合并层构成，

所述shortcut支路用于将所述注意力模块M1的输入直接作为输出F或是将所述注意力模块M1的输入进行两层卷积处理为输出F并输出给所述合并层，

所述multi-branch支路具有两个对称互补相反的分支结构，在所述分支结构对所述注意力模块M1的输入进行处理后，所述multi-branch支路还对两个所述分支结构的输出进行合并操作、使用卷积进行平滑操作、最后通过softmax得到输出W，

所述合并层用于将所述输出F以及所述输出W合并后输出，

所述注意力感受野模块M2包含基础部分以及卷积部分，

所述基础部分用于对所述注意力感受野模块M2的输入通过多分支进行处理，

所述卷积部分用于对所述基础部分的输出通过连接操作层、卷积操作层以及所述注意力模块M1进行处理，

所述注意力特征融合模块M3通过下采样操作、特征融合操作、所述注意力模块M1以及融合之后的平滑卷积操作对输入进行处理。

2.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述分支结构中含有至少两个卷积层，且每一个所述卷积层均跟随着激活函数与归一化处理，

所述分支结构最终输出的特征图大小不变且与原输入的特征图大小一致。

3.根据权利要求2所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述卷积层使用不同的激活函数以及不同的归一化方法进行处理。

4.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述multi-branch支路进行的所述合并操作包含连接操作或者相加操作。

5.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述使用卷积进行平滑操作包含至少一个卷积层进行的平滑操作。

6.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述合并层将所述输出F以及所述输出W合并所使用的公式为F+aW，式中，a为固定的权值或是可训练的参数。

7.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述注意力感受野模块M2中的所述注意力模块M被1插入在所述连接操作之前、所述连接操作与所述卷积操作之间或所述卷积操作之后，

所述注意力特征融合模块M3中的所述注意力模块M1被设置在所述上采样操作之后或者所述特征融合操作之后。

8.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，所述上采样方法包括线性插值、反卷积或SP卷积。

9.根据权利要求1所述的基于注意力机制深度学习网络的目标检测方法，其特征在于：

其中，融合之后的平滑卷积操作可以包括不同类型的平滑操作。

10.一种基于注意力机制深度学习网络的目标检测装置，其特征在于，用于对待检测图像进行特征图提取并从中检测出目标的位置和类别，包括：

预处理部，用于对所述待检测图像进行预处理从而得到预处理图像；以及

目标检测部，用于对所述预处理图像进行目标检测从而检测出目标的位置和类别，存储有一个含有注意力机制模块的目标检测模型，

其中，所述注意力机制模块为权利要求1至9中任意一项所述的注意力机制模块。