CN115690522B

CN115690522B - 一种基于多池化融合通道注意力的目标检测方法及其应用

Info

Publication number: CN115690522B
Application number: CN202211706047.0A
Authority: CN
Inventors: 王改华; 曹清程; 甘鑫; 翟乾宇
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-03-31
Anticipated expiration: 2042-12-29
Also published as: CN115690522A

Abstract

本发明提供一种基于多池化融合通道注意力的目标检测方法及其应用，包括步骤1，准备图像数据集用于测试和训练，使用训练集的数据来训练模型，用测试集上的误差作为最终模型在应对现实场景时的泛化误差；步骤2，构建基于目标检测的多池化融合通道注意力网络；步骤3，使用训练集图像对多池化融合通道注意力网络模型进行训练；步骤4，使用步骤3训练好的网络模型对测试集图像进行目标检测。本发明在不显着增加参数量和计算量的情况下，大大提高了特征提取的效果，增加了重要特征信息的聚焦度，从而使得目标检测网络取得了更佳的性能。

Description

一种基于多池化融合通道注意力的目标检测方法及其应用

技术领域

本发明属于目标检测技术领域，具体涉及一种基于多池化融合通道注意力的目标检测方法及其应用。

背景技术

在深度学习的发展背景下，卷积神经网络已经得到越来越多的人认同，应用也越来越普遍。基于深度学习的目标检测算法利用卷积神经网络（CNN）自动选取特征，然后再将特征输入到检测器中对目标分类和定位。

在神经网络学习中，一般而言模型的参数越多，则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

近年来，注意力机制广泛用于不同的深度学习任务，例如目标检测、语义分割和姿态估计。注意力分为软注意力和硬注意力。软注意力机制分为三个注意域：空间域、通道域和混合域。空间域是指图像中相应的空间变换。通道域直接将信息集中在全局通道中。混合域包含通道注意力和空间注意力。为了让网络将更多的注意力集中在显著目标周围的区域，本发明提出了多池化融合通道注意力模块来处理提取的特征图。

发明内容

针对现有技术存在的问题，本发明提供一种基于多池化融合通道注意力的目标检测方法，在不过度增加模型参数数量的情况下提高网络的特征表达能力。本发明为解决现有技术中存在的问题采用的技术方案如下：

一种基于多池化融合通道注意力的目标检测方法，包括以下步骤：

步骤1，准备图像数据集用于测试和训练，所述图像数据集包括训练集和测试集，使用训练集的数据来训练模型，用测试集上的误差作为最终模型在应对现实场景时的泛化误差；

步骤2，构建基于目标检测的多池化融合通道注意力网络；

步骤3，使用训练集图像对多池化融合通道注意力网络模型进行训练；

步骤4，使用步骤3训练好的网络模型对测试集图像进行目标检测。

所述图像数据集的80%作为训练集，20%作为测试集。

所述步骤1中将图像数据集中所有图像的尺寸调整到512×512mm像素大小进行多尺度训练，采用数据增强对图像数据集进行一系列操作，包括：随机翻转，padding填充，随机裁剪，归一化处理，图像失真处理。

所述步骤2中构建基于目标检测的多池化融合通道注意力网络包括两个阶段：

第一阶段（Stage1）：执行池化、卷积等操作，对输入特征图进行重塑，该过程属于对注意力机制功能角度的优化，第一阶段的输入为

，其中M为原始输入特征图，C、H和W是通道、高度和宽度。首先，将特征图M分为两个分支：普通全局池化和全局协方差池化，普通全局池化中，同时使用平均池化 (Avgpool)和最大池化(Maxpool)来聚合空间信息，生成两个可选的空间上下文描述符，平均池化对特征图上的每个像素均有反馈，最大池化只在特征图中响应最大的地方有梯度反馈；之后，使用逐元素求和来组合特征向量，为减少参数数量，使用1*1卷积来减少特征图的通道数，得到

，其中C'是C的一半，公式表示为：

（1）

其中M为原始输入特征图，Avg()表示平均池化，Max()表示最大池化，f()表示1*1卷积，M₂为普通全局池化分支生成的阶段性特征图。

基于最大池化和平均池化仅使用一阶信息，不能很好地表示数据特征，引入全局协方差池化 (Covpool)，以计算特征图的协方差矩阵（二阶信息），同时选择能代表数据分布的值，第一个分支得到[C',C']之后，特征被重新整形为[C',C',1]，其中C',C',1分别表示通道、高度和宽度。为了得到与M₂相同的维度，使用3*3卷积得到M₁，卷积核的大小为[C',1]，M₁的公式如下：

（2）

其中M为原始输入特征图，f₁，f₂指卷积操作，

是协方差池化，δ是重塑操作，M₁是全局协方差池化分支生成的阶段性特征图，M₁和M₂的特征通过add操作进行融合，最后得到同时具备普通全局池化和全局协方差池化融合信息的特征图

，其中C'、H和W 是通道、高度和宽度。

第二阶段（Stage2），特征图形状的优化，用以恢复输入特征图的维度，第二阶段展示了最终的特征一体化操作，来自第一阶段的M_S经过1*1卷积，以保持与输入M具有同样的通道数，在此之后，不考虑采用普遍的全连接层，而是直接使特征M_S通过一个1D卷积进行学习，因为1D卷积具备良好的跨通道信息获取能力，因此用其替换两次全连接，并通过1D卷积与维度的压缩（squeeze）和解压缩（unsqueeze）操作获得特征

，其通道、高度和宽度保持了原状，这样就通过1D卷积学习到了通道与通道间的关系，公式可以写作：

（3）

其中M_S为第一阶段得到的特征图，f₃表示1*1卷积，f^1D是一维卷积，同时，Sigmoid 激活函数是每个神经元的非线性处理加权计算结果，给予神经网络非线性映射能力。最后，权重系数M₃乘以输入特征M，并进行自适应特征优化，获得输出特征图

，其公式为：

Y=λ(M ₃⊙M）（4）

其中M为原始输入特征，λ为Sigmoid激活函数，⊙为特征相乘操作，Y为第二阶段得到的最终特征图。

所述步骤3中将训练集图像大小统一为512×512，学习率设置为0.001，batch_size大小设置为4，训练次数为12个epoch，并在第8个和第11个epoch时，将学习率降为原来的1/10。

一种基于多池化融合通道注意力的目标检测方法的应用，具体应用过程如下：

将输入图片（Input），经过特征提取网络（ResNet50）进行特征提取，将提取到的特征信息输出，然后经过多池化融合通道注意力机制（DCA）处理，处理后得到的特征信息，传入特征融合结构（FPN）进行特征融合，再传入检测头（Head）进行检测，实现目标的回归损失（GIoU Loss）回归及分类损失（Focal Loss）分类，最后输出特征图片（Output）。

所述特征提取网络（ResNet50）输出三个不同尺寸的特征图：C1,C2,C3，步距分别为4，8, 16，通道大小分别为256,512,1024，该应用过程核心结构为多池化融合通道注意力机制（DCA），其作用在于增强重要特征信息的表达能力，同时抑制非必要特征，其位置位于三个特征图C1, C2, C3之后，接受来自ResNet50提取后的特征，之后特征信息传入FPN结构进行特征融合操作，再传入Head用于物体的检测，实现目标的GIoU Loss回归及Focal Loss分类，最后输出特征图片Output。

本发明具有如下优点：

与一般通道注意力机制相比，本发明提出基于多池化融合通道注意力的目标检测方法从多池化、不同维度融合的角度捕获特征信息，同时考虑了不同特征信息之间的相互交叉以及通道与通道之间的联系，在不显着增加参数量和计算量的情况下，大大提高了特征提取的效果，增加了重要特征信息的聚焦度，从而使得目标检测网络取得了更佳的性能。

附图说明

图1为本发明基于多池化融合通道注意力的目标检测方法流程示意图；

图2为本发明基于多池化融合通道注意力的目标检测方法的应用流程示意图；

其中名词解释为： C1, C2, C3：特征层；DCA：多池化融合通道注意力机制。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。如图1所示，本发明提供一种基于目标检测的多池化融合通道注意力方法及其应用，包括：

步骤1：数据输入和预处理。

采用COCO 2017数据集，COCO 2017数据集共包含80个用于检测的类别。分别为“人”，“自行车”，“汽车”，“摩托车”，“飞机”，“公共汽车”，“火车”，“卡车”，“船”，“交通信号灯”等日常生活中常见个体，它是一个大型的、丰富的物体检测，分割和字幕数据集。包含annotations、test2017、train2017、val2017四个文件。其中train2017包含118287张图像，val2017包含5000张图像，test2017包含28660张图像。annotations为标注类型的集合：object instances, object keypoints和image captions，使用JSON文件存储。

将所有图片的尺寸调整到512×512mm大小多尺度训练，采用数据增强对图像数据集进行各种操作：随机翻转操作，对不符合要求的图片进行padding填充操作，对不符合指定大小的图片进行随机裁剪操作，归一化处理操作，图像失真处理操作。

步骤2：模型的构建。

网络结构如图2所示，该网络由主干网络ResNet50、颈部模块FPN和头部模块Head三部分构成。ResNet50主干网络用于提取图片的特征，该网络输出三个不同尺寸的特征图：C1,C2,C3，步距分别为4，8, 16，通道大小分别为256,512,1024。颈部模块FPN用于连接主干网络ResNet50和头部模块Head，用于融合特征。该结构采用了ResNet50输出的三个特征图C1,C2,C3，经过1*1卷积后通道都降为256, 经过FPN结构进行特征融合。头部模块Head用于物体的检测，实现目标的分类和回归。多池化融合通道注意力机制（DCA）放在C1,C2,C3与FPN之间。

步骤3：训练测试。

实验的评价标准采用平均精度（Average-Precision，AP），AP₅₀，AP₇₅，AP_S，AP_M，AP_L作为主要评价标准。其中 AP₅₀， AP₇₅ 指的是取 IoU 阈值大于 0.50 和大于0.75 的检测器的检测结果，AP_S、AP_M、AP_L 分别对应小、中、大型目标的检测准确度。

实验环境：搭建以PyTorch1.6、torchvision=0.7.0、CUDA10.0、CUDNN7.4为深度学习框架的Python编译环境，并在平台mmdetection2.6上实现。

Experimental equipment（实验设备）: CPU: Intel Xeon E5-2683 V3@2.00GHz;RAM: 16 GB; Graphics card: Nvidia GTX 2060 super; Hard disk: 500GB;

测试多池化融合通道注意力机制（DCA）对检测结果的影响，并在多个网络上进行对比实验，实验结果如表1所示。

表1 DCA通道注意力对不同网络的效果

表1显示了 DCA在 COCO 2017 数据集上的检测效果。从表中可以看出，每个网络的增长幅度在 0.2% 到 1.1% 之间，检测精度得到了不同水平的提升，体现了DCA的有效性。需要说明的是，COCO 2017 数据集的图像往往包含大量复杂对象，待检测目标的类型、尺度和姿态往往是不确定的，个别情况下也会存在一些检测困难。例如，Foveabox和 VFNet在加入DCA通道注意力后的小目标检测效果相对于原始网络并未提升，但这些属于允许范围内的数据情况。总的来说，我们的通道注意力机制很好地提取了重要特征。

最后，选择一些测试图片来测试最终结果。测试图片主要包括几种情况：（1）只含单个物体；（2）含有多个物体；（3）含有被遮挡物体；（4）含有尺寸较小的物体；（5）含有模糊不清晰的物体。实验结果表明，无论图像中目标的检测任务困难与否，本发明的检测方法都能准确的识别出图片中物体的种类，精准地完成目标检测的任务，验证了本申请提出的基于多池化融合通道注意力机制进行目标检测的有效性。

本发明的保护范围并不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内，则本发明的意图也包含这些改动和变形在内。

Claims

1.一种基于多池化融合通道注意力的目标检测方法，其特征在于，包括以下步骤：

步骤1，准备图像数据集用于测试和训练，所述图像数据集包括训练集和测试集，使用训练集的数据训练模型，将测试集上的误差作为最终模型在应对现实场景时的泛化误差；

步骤2，构建基于目标检测的多池化融合通道注意力网络；

步骤4，使用步骤3训练好的网络模型对测试集图像进行目标检测；

第一阶段：执行池化、卷积操作，对输入特征图进行重塑，第一阶段的输入为M∈R^C*H*W，其中M为原始输入特征图，C、H和W是通道、高度和宽度，首先，将特征图M分为两个分支：分别进行普通全局池化和全局协方差池化，普通全局池化中，同时使用平均池化和最大池化来聚合空间信息，生成两个可选的空间上下文描述符，平均池化对特征图上的每个像素均有反馈，最大池化只在特征图中响应最大的地方有梯度反馈；然后使用逐元素求和组合特征向量，以减少参数数量，使用1*1卷积来减少特征图的通道数，得到

，其中C'是C的一半，公式表示为：

M₂＝f(Avg(M)+Max(M)) (1)

其中M为原始输入特征图，Avg()表示平均池化，Max()表示最大池化，f()表示1*1卷积，M₂为普通全局池化分支生成的阶段性特征图；

所述全局协方差池化包括计算特征图的协方差矩阵，选择能代表数据分布的值，第一个分支得到[C',C']之后，特征被重新整形为[C',C',1]，其中C',C',1分别表示通道、高度和宽度，为了得到与M₂相同的维度，使用3*3卷积得到M₁，卷积核的大小为[C',1]，M₁的公式如下：

其中M为原始输入特征图，f₁，f₂指卷积操作，

，其中C'、H和W是通道、高度和宽度；

第二阶段：进行特征图形状的优化，用以恢复输入特征图的维度，来自第一阶段的M_S经过1*1卷积后，使特征M_S通过一个1D卷积进行学习，并通过1D卷积与维度的压缩和解压缩操作，获得特征M₃∈R^C*H*W，其通道、高度和宽度保持原状，即通过1D卷积学习到通道与通道间的关系，其公式为：

M₃＝f^1D(f₃(M_S))(3)

其中M_S为第一阶段得到的特征图，f₃表示1*1卷积，f^1D是一维卷积，同时，Sigmoid激活函数是每个神经元的非线性处理加权计算结果，给予神经网络非线性映射能力，最后，权重系数M₃乘以输入特征M，并进行自适应特征优化，获得输出特征图Y∈R^C*H*W，其公式为：

Y＝λ(M₃⊙M)(4)

2.如权利要求1所述的一种基于多池化融合通道注意力的目标检测方法，其特征在于：所述图像数据集的80％作为训练集，20％作为测试集。

3.如权利要求1所述的一种基于多池化融合通道注意力的目标检测方法，其特征在于：所述步骤1中将图像数据集中所有图像的尺寸调整到512×512mm像素大小进行多尺度训练，采用数据增强对图像数据集进行一系列操作，包括：随机翻转，padding填充，随机裁剪，归一化处理，图像失真处理。

4.如权利要求1-3任一项所述的一种基于多池化融合通道注意力的目标检测方法的应用，其特征在于，具体应用过程如下：

将输入图片经过特征提取网络进行特征提取，将提取到的特征信息输出，然后经过多池化融合通道注意力机制处理，处理后得到的特征信息，传入特征融合结构进行特征融合，再传入检测头进行检测，实现目标的回归损失回归及分类损失分类，最后输出特征图片。