CN116824272B

CN116824272B - 基于旋转特征的特征增强目标检测方法

Info

Publication number: CN116824272B
Application number: CN202311006238.0A
Authority: CN
Inventors: 刘敏; 霍武杰; 武明虎; 林坤; 陈明; 王娟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2024-02-13
Anticipated expiration: 2043-08-10
Also published as: CN116824272A

Abstract

本发明涉及目标检测技术领域，具体为基于旋转特征的特征增强目标检测方法，包括以下步骤：对输入的三维特征图[C,H,W]分别进行90°、180°、270°旋转，得到四组三维特征图，将四组三维特征图分别通过RTC模块，经Reshape操作、卷积、GeLU激活函数、卷积、Bach Normalization函数归一化、GeLU激活函数得到四个角度F'₁,F'₂,F'₃,F'₄。该基于旋转特征的特征增强目标检测方，通过对特征图进行旋转不同的角度，使得模型获得不同角度的特征，增加特征的多样性，再通过注意力机制使得模型关注更加重要的部分，以提高目标检测模型的精度。

Description

基于旋转特征的特征增强目标检测方法

技术领域

本发明涉及目标检测技术领域，具体为基于旋转特征的特征增强目标检测方法。

背景技术

随着互联网、人工智能、大数据等一系列技术的飞速发展，这些新技术逐渐影响着人们的生活，在生活中起到举足轻重的作用，目标检测正是其中之一，已经应用到自动驾驶、智能视频监控、交通场景检测、医疗等领域，因此，提高目标检测的精度具有重要的意义。

目标检测随着深度学习技术的发展取得了巨大的进展，但是深度学习需要大量样本进行训练才能达到较好的性能和泛化能力，目前可用于目标检测的大规模标记数据的数据集有PASCAL VOC、MS COCO数据集和Objects 365数据集，但是用于特定任务的大规模公开数据集较少，通过数据增强来提高数据集的多样性，数据增强的方法有旋转、缩放、平移、噪声扰动和裁剪等等，数据增强能提升模型的鲁棒性，降低模型对图像的敏感程度。

目标检测需要图像进行特征提取，然后进行分类和定位，基于卷积神经网络的目标检测算法相较于传统算法在各方面取得了非常大的提升。随着卷积神经网络提取特征过程中下采样和卷积次数增加，深度不断的加深，感受野不断增大，深层特征语义信息更加丰富，更加有利于分类任务。然而对于定位任务而言，更依赖于浅层特征，因为浅层特征，具有更高的分辨率，空间信息丰富，拥有更多的细节信息，但是语义信息较少。

Lin等人提出了FPN特征金字塔，特征金字塔是自顶向下，横向连接的结构，将深层特征与浅层特征进行融合，通过上采样将语义信息传给浅层特征，解决了浅层特征的语义信息较少的问题，并通过横向连接结构构建了一个多尺度的特征金字塔。

通过横向连接构建的特征金字塔输入通道是固定的，而且是通过降维实现的，导致从主干网络获取的不同深度的特征会有一定的丢失，尤其深层特征而言，故而提出了一种基于旋转特征的特征增强目标检测方法来解决上述问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了，具备基于旋转特征的特征增强目标检测方法等优点，解决了通过横向连接构建的特征金字塔输入通道是固定的，而且是通过降维实现的，导致从主干网络获取的不同深度的特征会有一定的丢失，尤其深层特征而言的问题。

(二)技术方案

为实现上述提高目标检测模型精度的目的，本发明提供如下技术方案：基于旋转特征的特征增强目标检测方法，包括以下步骤：

1)对输入的三维特征图[C,H,W]分别进行90°、180°、270°旋转，得到四组三维特征图；

2)将四组三维特征图分别通过RTC模块，经Reshape操作、卷积、GeLU激活函数、卷积、Bach Normalization函数归一化、GeLU激活函数得到四个角度F'₁,F'₂,F'₃,F'₄；

3)保存四个角度F'₁,F'₂,F'₃,F'₄经过Bach Normalization函数得到的对应的权重γ₁,γ₂,γ₃,γ₄；

4)进行四个角度F'₁,F'₂,F'₃,F'₄的交错拼接，通过Reshape函数得到通道数为4C、高宽为[H,W]的特征图[4C,H,W]；

5)对特征图[4C,H,W]进行分组卷积，通过Bach Normalization函数和GeLU激活函数得到[C,H,W]的特征图，再将得到的权重γ₁,γ₂,γ₃,γ₄输入到Position-Attention自注意力函数中得到Bn-weight；

6)对Bn-weight进行卷积、GeLU激活函数和Softmax归一化函数处理，并将处理结果与分组卷积得到的[C,H,W]特征图相乘，得到的结果与我们输入的特征图[C,H,W]相加得到我们特征增强后的结果。

进一步，所述输入的三维特征图[C,H,W]中的C是指的特征图的通道数，H、W是指的特征图的高和宽，所述旋转公式如下所示：

F₁＝[C,H₁,W₁]

F₂＝[C,H₂,W₂]

F₃＝[C,H₃,W₃]

F₄＝[C,H₄,W₄].

F_i＝torch.rot90(F₁,i-1,[H,W]),i＝2,3,4

torch.rot90(Tensor,k,dim)

其中，Tensor是指的输入的张量，k是指的旋转多少个90°，dim是的需要旋转的维度，F₁是指的输入的特征图，F₂，F₃，F₄是依次指的是旋转90°、180°、270°后的特征图。

进一步，所述Position Attention公式如下：

其中，R＝γ₁,Q＝γ₂,K＝γ₃,V＝γ₄。

进一步，所述RTC模块的具体步骤包括：

1)通过Reshape把三维特征图[C,H,W]拉成一条，从[C,H,W]变成[C，HW]；

2)使用卷积核大小为1*1，padding为1，步长为1的卷积进行降维得到特征图[C/16，HW]；

3)增加跨通道信息的交互、增加非线性和减少模型的参数量，再经过GELU激活函数；

4)再次通过卷积核大小为1*1，padding为1，步长为1的卷积进行升维得到特征图[C，HW]；

5)通过降维升维减少参数量、并提高模型的泛化能力，再进行BachNormalization归一化，再经过GeLU激活函数得到四个角度F'₁,F'₂,F'₃,F'₄。

进一步，所述GELU激活函数公式如下所示：

其中，Φ(x)表示高斯分布的累积概率分布，即在(-∞，X)区间对高斯分布的定积分。

进一步，所述Bach Normalization公式如下：

其中，X是输入，Y是归一化后的输出，μ_B是X的均值，σ_B ²是标准差。

(三)有益效果

与现有技术相比，本发明提供了基于旋转特征的特征增强目标检测方，具备以下有益效果：

该基于旋转特征的特征增强目标检测方，通过对特征图进行旋转不同的角度，使得模型获得不同角度的特征，增加特征的多样性，再通过注意力机制使得模型关注更加重要的部分，以提高目标检测模型的精度。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于旋转特征的特征增强目标检测方法，包括以下步骤：

5)对特征图[4C,H,W]进行分组卷积，分为C组，每组为[4,H,W]的特征图，分组卷积核大小为3*3，padding为1，步长为1的卷积，通过Bach Normalization函数和GeLU激活函数得到[C,H,W]的特征图，再将得到的权重γ₁,γ₂,γ₃,γ₄输入到Position-Attention自注意力函数中得到Bn-weight；

本实施例中，所述输入的三维特征图[C,H,W]中的C是指的特征图的通道数，H、W是指的特征图的高和宽，所述旋转公式如下所示：

F₁＝[C,H₁,W₁]

F₂＝[C,H₂,W₂]

F₃＝[C,H₃,W₃]

F₄＝[C,H₄,W₄].

F_i＝torch.rot90(F₁,i-1,[H,W]),i＝2,3,4

torch.rot90(Tensor,k,dim)

3.根据权利要求1所述的基于旋转特征的特征增强目标检测方法，其特征在于，所述Position Attention公式如下：

其中，R＝γ₁,Q＝γ₂,K＝γ₃,V＝γ₄，90°，180°，270°对应的Bach Normalization权重输入到自注意力中去，90°的权重与180°的权重的转置进行矩阵乘法，然后除以通道数C开根号，经过Softmax然后与270°的权重相乘，得到的注意力矩阵与0°的权重进行相加得到Bn-weight。

本实施例中，所述RTC模块的具体步骤包括：

本实施例中，所述GELU激活函数公式如下所示：

本实施例中，所述Bach Normalization公式如下：

实验例：

将提出的旋转特模块放在MS COCO数据集上进行了实验，实验结果如下表所示：

其中，在MS COCO数据集中，评价指标是平均精度AP、AP50、AP75、APS、APM、APL，AP指的是IOU从0.5至0.95每0.05作为一个间隔，计算mAP值，AP50指的是IOU阈值为0.5时，计算的mAP，AP75指的是IOU阈值为0.75时，计算的mAP，APS指的是像素面积小于32的平方的小目标，APM指的是像素面积小于32的平方的小目标大于96的平方的中等目标，APL指的是像素面积大于96的平方的大目标。

从上述实验可得旋转特征增强模块通过旋转不同角度的特征，并将不同角度同一维度的特征进行特征融合，充分利用了不同角度的空间信息，而且通过注意力机制增强了通道之间的信息，不同目标检测模型特征金字塔的横向连接处，能够有效的减少通道降维引起的语义信息的丢失。通过将旋转特征增强模块加入到不同目标检测模型中，在COCO数据集上验证可得，我们的方法在提升特征表达能力和检测精度方面取得了显著的效果，为目标检测任务的性能提升提供了新的途径。

本发明的有益效果是：该基于旋转特征的特征增强目标检测方，通过对特征图进行旋转不同的角度，使得模型获得不同角度的特征，增加特征的多样性，再通过注意力机制使得模型关注更加重要的部分，以提高目标检测模型的精度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于旋转特征的特征增强目标检测方法，其特征在于，包括以下步骤：

其中，输入的三维特征图[C,H,W]中的C是指的特征图的通道数，H、W是指的特征图的高和宽，所述旋转公式如下所示：

F₁＝[C,H₁,W₁]

F₂＝[C,H₂,W₂]

F₃＝[C,H₃,W₃]

F₄＝[C,H₄,W₄].

F_i＝torch.rot90(F₁,i-1,[H,W]),i＝2,3,4

torch.rot90(Tensor,k,dim)

式中，Tensor是指的输入的张量，k是指的旋转多少个90°，dim是的需要旋转的维度，F₁是指的输入的特征图，F₂，F₃，F₄是依次指的是旋转90°、180°、270°后的特征图；

2.根据权利要求1所述的基于旋转特征的特征增强目标检测方法，其特征在于，所述Position Attention公式如下：

其中，R＝γ₁,Q＝γ₂,K＝γ₃,V＝γ₄。

3.根据权利要求1所述的基于旋转特征的特征增强目标检测方法，其特征在于，所述RTC模块的具体步骤包括：

5)通过降维升维减少参数量、并提高模型的泛化能力，再进行Bach Normalization归一化，再经过GeLU激活函数得到四个角度F'₁,F'₂,F'₃,F'₄。

4.根据权利要求3所述的基于旋转特征的特征增强目标检测方法，其特征在于，所述GELU激活函数公式如下所示：

5.根据权利要求3所述的基于旋转特征的特征增强目标检测方法，其特征在于，所述Bach Normalization公式如下：

其中，x_i是输入，y_i是归一化后的输出，μ_B是x_i的均值，σ_B ²是标准差。