CN114972860A

CN114972860A - 一种基于注意增强的双向特征金字塔网络的目标检测方法

Info

Publication number: CN114972860A
Application number: CN202210567741.2A
Authority: CN
Inventors: 张焕龙; 张建伟; 史坤峰; 杜启帆; 张�杰; 张勋才; 韩东伟; 田杨阳; 郭志民; 王凤仙; 乔建伟
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-30
Also published as: GB202217717D0; GB2614954A; GB2614954B

Abstract

本发明提出了一种基于注意增强的双向特征金字塔网络的目标检测方法，属于目标检测技术领域，用于解决传统SSD检测算法对小目标检测精度低、漏检率高等问题。本发明基于SSD目标检测算法，在特征提取网络VGG输出特征分支之后增加了注意增强双向特征金字塔网络。注意增强双向特征金字塔网络由双向特征金字塔网络和坐标注意力组成。双向特征金字塔网络通过自上而下和自下而上的路径分支来聚合不同分辨率的特征图，以至于在所有尺度特征图上都可以获得丰富的语义信息和细节信息。坐标注意力通过将位置信息嵌入到通道注意力中可以使网络把注意力集中在特征图中那些与目标相关的通道和位置，而这些包含丰富的语义信息和细节信息的特征图有助于坐标注意力更快地把注意力集中在与目标相关的通道和位置上，从而提升SSD目标检测算法对小目标的检测能力。

Description

一种基于注意增强的双向特征金字塔网络的目标检测方法

技术领域

本发明涉及目标检测的技术领域，特别是指一种基于注意增强双向特征金字塔网络的目标检测方法。

背景技术

目标检测主要是对输入图像中的物体类别和位置进行判断,实质上是图像分类和目标定位的结合,是计算机视觉领域中的一个重要研究方向。目标检测在人脸识别、无人驾驶等领域取得了广泛的应用。近年来,由于卷积得经网名的发展和硬件算力的提升,基于深度学习的目标检测取得了突破性的进展。

虽然在目标检测方面已经取得了很大的进展，但是在实际生产中广泛应用的小目标检测问题一直没有得到很好的解决。这主要是因为小物体占用的空间少，像素有限。另外，经过多次卷积和池化后，特征图中的小目标的特征信息损失严重，导致检测器无法准确检测到小目标。因此，Liu等人在SSD中提出了的典型金字塔结构。典型的金字塔层次结构创造性地使用较低层次的特征用于较小的目标检测，较高层次的特征用于较大的目标检测。但我们知道，浅层特征包含丰富的细节信息，而深层特征包含更多的语义信息。因此，SSD方法不能在单个特征映射中获得足够的小目标细节和语义信息，难以实现对小目标的良好检测性能。为了解决这一问题，许多研究开发了多尺度特征融合以获得更丰富的特征表示。除了融合不同尺度的特征外，注意机制对于小目标的检测也有很大的提高。注意机制可以学习根据不同通道和位置代表目标的能力生成有区别的权值，并局部增强重要通道和位置，有利于小物体的定位和识别。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种基于注意增强双向特征金字塔网络的目标检测方法，首先利用双向特征金字塔网络融合不同尺度的特征以至于输出特征可以获得丰富的语义信息和细节信息，其次坐标注意力可以使网络把注意力聚焦在特征图中那些与目标相关的通道和位置上，进而提高目标检测算法对小目标的检测性能。

本发明的技术方案是这样实现的：

步骤一、图片输入到VGG网络中得到4层特征

和

步骤二、

和

进入双向特征金字塔网络中，通过自上而下和自下而上的路径分支对不同尺度的特征进行融合，从而获得包含丰富的语义信息和细节信息的特征

和

步骤三、

和

分别经过坐标注意力，得到注意特征图Y₃、Y₄、Y₅和Y₆。

步骤四、把坐标注意力输出的四层注意特征图Y₃、Y₄、Y₅、和Y₆送入预测模块进行分类和定位

步骤五、最后通过非最大抑制算法对冗余预测框进行过滤，形成最终的预测结果。

在所述的步骤二中，不同层特征的加权融合方式为：

采用快速规范化的融合去融合不同层特征，加权特征融合计算如下:

w_i≥0是通过在每个w_i后使用整流线性单元(ReLU)来保证的，∈用于避免数值的不确定性，其值为0.0001,I_i表示第i个输入特征的值。

在所述的步骤二中，双向特征金字塔网络融合不同层特征的融合过程为：

在自上而下的路径分支中以

为例，计算过程如下：

F_up表示上采样过程，

和

是双向特征金字塔网络第五层和第六层的输入特征，w₁andw₂是

和

融合时的权重，ε用来避免数值的不确定性，其值为0.0001。

在自下而上的路径分支中以

为例，计算过程如下：

F_down表示上采样过程。最后

和

经过上述融合方式得到包含丰富语义信息和细节信息的

和

在所述的步骤三中，坐标注意力对融合后的特征处理过程为：

S3.1、当输入X的大小为(C×H×W)时，设置大小为(H,1)和(1,W)的池化核，对水平方向和垂直方向上不同通道的信息进行编码。对于特征中的第c通道，池化高度为h的特征的输出计算如下：

将宽度为B的特征池化的输出可以表示为:

S3.2、在水平方向和垂直方向上池化后，从C×W×H传输到C×W×1和C×1×H。为了把它们整合到一起，需要将C×W×1转换为C×1×H；

S3.3、在第三维度(H+H＝2H)层次上实现连接，得到注意特征图C×1×2H；

S3.4、注意特征图经过1×1卷积层后通道数变成C/r，注意特征图变为C/r×1×2H；

S3.5、然后将C/r×1×2H的注意特征图沿空间维度分解为两个独立的张量：f^h∈R^C/r×H)和f^w∈R^C/r×w)；

S3.6、接下来，通过两个1×1卷积层F_h和F_w恢复两个张量的通道数至C，随后利用sigmoid激活函数进行处理得到权值矩阵g^f和g^w；

g^h＝σ(F_h(f^h))

g^w＝σ(F_w(f^w))

S3.7、将输入特征X乘以权值矩阵，即可得到坐标注意块的最终输出Y。

与现有技术相比，本发明的有益效果为：注意增强的双向特征金字塔网络利用自顶向下和自底向上的路径聚合不同尺度的特征，使所有尺度的特征都包含丰富的语义和细节信息。并且每个特征输出分支经过协调注意处理，使网络能够轻松地聚焦在特征图中与物体相关的通道和位置上，从而实现对目标的精准分类和定位。

附图说明

图1为本发明的网络结构图；

图2(a)为坐标注意力模型-坐标注意力网络结构图；

图2(b)为坐标注意力模型-坐标注意力流程图；

图3为本发明与原始SSD算法在NWPU VHR-10数据集上的检测结果对比图-原始SSD算法检测结果；

图4为本发明与原始SSD算法在NWPU VHR-10数据集上的检测结果对比图-改进后的SSD检测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于注意增强的双向特征金字塔网络的目标检测方法，其步骤如下：

S1：待检测图片输入到VGG网络中，VGG网络对输入图片进行特征提取得到4层特征

和

S2、

和

和

不同层特征的加权融合方式为：

双向特征金字塔网络融合不同层特征的融合过程为：

在自上而下的路径分支中以

为例，计算过程如下：

F_up表示上采样过程，

和

和

融合时的权重，ε用来避免数值的不确定性，其值为0.0001。

在自下而上的路径分支中以

为例，计算过程如下：

F_down表示上采样过程，最后

和

经过上述融合方式得到包含丰富语义信息和细节信息的

和

S3：

和

分别经过坐标注意力，得到注意特征图Y₃、Y₄、Y₅和Y₆。以

为例，坐标注意力模型对输入特征图

的处理步骤如下：

S3.1、当

的尺寸为(256×10×10)时，设置尺寸为(10,1)和(1,10)的poolingkernel，用于编码水平和垂直方向上不同通道的信息；对于特征中的第c通道，池化高度为h的特征的输出计算如下：

将宽度为w的特征池化的输出可以表示为:

S3.2、在水平方向和垂直方向上池化后，从256×10×10传输到256×10×1和256×1×10。为了把它们整合到一起，需要将256×10×1转换为256×1×10；

S3.3、在第三维度(10+10＝20)层次上实现连接，得到注意特征图256×1×20；

S3.4、注意特征图经过1×1卷积层后通道数变成8，注意特征图变为8×1×20；

S3.5、然后将8×1×20的注意特征图沿空间维度分解为两个独立的张量：f^h∈R^C ^/r×H)和F^w∈R^C/r×w)；

S3.6、接下来，通过两个1×1卷积层F_h和F_w恢复两个张量的通道数至256，随后利用sigmoid激活函数进行处理得到权值矩阵g^f和g^w；

g^h＝σ(F_h(f^h))

g^w＝σ(F_w(f^w))

S3.7、将输入特征

乘以权值矩阵，即可得到坐标注意块的最终输出Y₃。

S3.8、

和

依次经过S3.1-S3.7步骤得到注意特征图Y₄、Y₅和Y₆。

S4：把坐标注意力输出的四层注意特征图Y₃、Y₄、Y₅、和Y₆送入预测模块进行分类和定位

S5：最后通过非最大抑制算法对冗余预测框进行过滤，形成最终的预测结果。

如图3-4所示，在NWPU VHR-10数据集上，图3为原始SSD目标检测算法检测效果与本发明提供的基于注意增强的双向特征金字塔网络检测算法检测效果对比，效果提升7.92％。本发明实例是在Intel Platinum 8163CPU(2.50GHz)，256GB RAM和NVIDIA TITANRTX的计算机上使用python3.6实现的。本发明选用NWPU VHR-10数据集作为实验材料，使用平均精度MAP为评价指标，该数据集包含10种不同类别的目标，分别为air、planes、ships、storage tanks、baseball diamonds、tennis courts、basketball courts、ground trackfields、harbors、bridges和vehicles，其中有520个训练样本和280个测试样本。训练样本对目标检测模型进行训练，测试样本对模型检测效果进行评估。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。