CN115601625A

CN115601625A - 一种适用于目标检测网络的双检测头结构

Info

Publication number: CN115601625A
Application number: CN202110766112.8A
Authority: CN
Inventors: 王少华; 戴亚平
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-01-13

Abstract

本发明公开的一种适用于目标检测网络的双检测头结构，属于深度学习中的计算机视觉领域。本发明的内容为：设计了一种双检测头结构，适用于通用的目标检测网络，可以提高目标检测网络的检测精度。本发明的实现方法为：将待检图片输入至目标检测网络，经过骨干网络和特征金字塔，得到不同尺度的特征图；分别将不同尺度的特征图输入双检测头结构，输出图片中的目标的类别和边界框。本发明要解决的技术问题是设计更有效的目标检测网络的检测头结构，提高目标检测网络的检测精度。

Description

一种适用于目标检测网络的双检测头结构

技术领域

本发明属于深度学习中的计算机视觉领域，尤其涉及一种适用于目标检测网络的双检测头结构。

背景技术

随着卷积神经网络的兴起，现有的主流的目标检测方法都基于卷积神经网络，被称为目标检测网络。相比于传统的基于图像匹配的目标检测方法，目标检测网络具有较高的检测精度，被广泛应用与生产生活的方方面面。目标检测网络由骨干网络、特征金字塔和检测头三部分组成，其中骨干网络和特征金字塔已经得到了广泛的研究，而关于检测头的研究却知之甚少。检测头主要用于在特征金字塔输出的特征图上检测是否存在目标，现有的检测头结构简单，对于所有尺度的特征均使用3x3卷积，无法高效的利用特征图中的多尺度信息检测目标，因此对于高效检测头的研究很有必要。

发明内容

本发明的目的是提供一种适用于目标检测网络的双检测头结构，该方法通过使用不同膨胀率的膨胀卷积构造具有不同感受野的检测头，结合两种具有不同感受野的检测头，生成预测多目标的类别和边界框。通过结合不同感受野的信息，检测头从特征金字塔输出特征图中提取到了更有效的信息，从而可以提高目标检测精度。

本发明是通过下述技术方案实现的。

本发明公开的一种适用于目标检测网络的双检测头结构，包括如下步骤：

步骤1：输入待检图片至网络，经过骨干网络和特征金字塔，得到多尺度特征图；

步骤2：构建两个具有不同感受野(使用不同膨胀率的膨胀卷积层)的检测头；

步骤3：多尺度特征图分别输入两个具有不同感受野的检测头，得到在不同感受野下的多尺度增强特征图；

步骤4：采用逐元素求均值的方法融合两类具有不同感受野的多尺度增强特征图；

步骤5：使用融合后的多尺度增强特征图预测多目标的类别和边界框。

步骤1的实现方法为：

将输入图片缩放至网络要求要求的大小并标准化。标准化后的图片经过骨干网络提取多阶段特征图{C₃,C₄,C₅,C₆,C₇}，多阶段特征经过特征金字塔进行特征融合，生成多尺度特征图{P₃,P₄,P₅,P₆,P₇}。

进一步地，步骤2的实现方法为：

步骤2.1：构建一个由4层卷积核大小为3×3，膨胀率为1的2D卷积层构成的分类分支Cls1；

步骤2.2：构建一个由4层卷积核大小为3×3，膨胀率为1的2D卷积层构成的回归分支Reg1；

步骤2.1：构建一个由4层卷积核大小为3×3，膨胀率为2的2D卷积层构成的分类分支Cls2；

步骤2.2：构建一个由4层卷积核大小为3×3，膨胀率为2的2D卷积层构成的回归分支Reg2。

进一步地，步骤3的实现方法为：

步骤3.1：在多尺度特征图{P₃,P₄,P₅,P₆,P₇}四围填充宽度为1值为0的像素，输入分类分支Cls1，输出多尺度增强特征图{F_{3_cls1},F_{4_cls1},F_{5_cls1},F_{6_cls1},F_{7_cls1}}；

步骤3.2：在多尺度特征图{P₃,P₄,P₅,P₆,P₇}四围填充宽度为1值为0的像素，输入回归分支Reg1，输出多尺度增强特征图{F_{3_reg1},F_{4_reg1},F_{5_reg1},F_{6_reg1},F_{7_reg1}}；

步骤3.3：在多尺度特征图{P₃,P₄,P₅,P₆,P₇}四围填充宽度为2值为0的像素，输入分类分支Cls2，输出多尺度增强特征图{F_{3_cls2},F_{4_cls2},F_{5_cls2},F_{6_cls2},F_{7_cls2}}；

步骤3.4：在多尺度特征图{P₃,P₄,P₅,P₆,P₇}四围填充宽度为2值为0的像素，输入回归分支Reg2，输出多尺度增强特征图{F_{3_reg2},F_{4_reg2},F_{5_reg2},F_{6_reg2},F_{7_reg2}}。

进一步地，步骤4的实现方法为：

步骤4.1：使用公式

融合具有不同感受的多尺度增强特征图{F_{3_cls1},F_{4_cls1},F_{5_cls1},F_{6_cls1},F_{7_cls1}}和{F_{3_cls2},F_{4_cls2},F_{5_cls2},F_{6_cls2},F_{7_cls2}}，生成多尺度分类增强特征图{F_{3_cls},F_{4_cls},F_{5_cls},F_{6_cls},F_{7_cls}}；

步骤4.2：使用公式

融合具有不同感受的多尺度增强特征图{F_{3_reg1},F_{4_reg1},F_{5_reg1},F_{6_reg1},F_{7_reg1}}和{F_{3_reg2},F_{4_reg2},F_{5_reg2},F_{6_reg2},F_{7_reg2}}，生成多尺度回归增强特征图{F_{3_reg},F_{4_reg},F_{5_reg},F_{6_reg},F_{7_reg}}。

进一步地，步骤5的实现方法为：

步骤5.1：使用多尺度分类增强特征图{F_{3_cls},F_{4_cls},F_{5_cls},F_{6_cls},F_{7_cls}}预测多目标的类别；

步骤5.2：使用多尺度回归增强特征图{F_{3_reg},F_{4_reg},F_{5_reg},F_{6_reg},F_{7_reg}}预测多目标的边界框。

本发明取得的技术效果有：

1.本发明公开的一种适用于目标检测网络的双检测头结构，重新设计了目标检测网络的检测头结构，与现有的但检测头结构相比，本发明公开的双检测头结构稳定提升了目标检测网络的检测精度；

2.本发明公开的双检测头结构可以应用在单阶段目标检测网络和双阶段目标检测网络，结构简单，即插即用。

附图说明

下面结合附图与实施例对本发明进一步说明，附图中：

图1是本发明的一种适用于目标检测网络的双检测头结构图。其中方块代表特征图，检测头有两个分支：分类分支和回归分支，分别检测目标类别和边界框。每个分支包括两个使用不同膨胀率卷积的子检测头，x4表示每个子检测头有4层卷积。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实例对发明内容做进一步说明。

如图1所示，本实施例公开的一种适用于目标检测网络的双检测头结构，具体实施步骤如下：

步骤1：缩放输入图片使其最短边不小于800，最长边不大于1333，使用ImageNet数据集的均值[0.485,0.456,0.406]和方差[0.229,0.224,0.225]对缩放后的图片进行逐元素标准化；标准化后的图片经过骨干网络提取多阶段特征图{C₃,C₄,C₅,C₆,C₇}，多阶段特征经过特征金字塔进行特征融合，生成多尺度特征图{P₃,P₄,P₅,P₆,P₇}，其中多尺度特征图{P₃,P₄,P₅,P₆,P₇}的大小分别为输入图片大小的{1/2³,1/2⁴,1/2⁵,1/2⁶,1/2⁷}。

步骤2：构建两个具有不同感受野(使用不同膨胀率的膨胀卷积层)的检测头。

步骤3：多尺度特征图分别输入两个具有不同感受野的检测头，得到在不同感受野下的多尺度增强特征图。

步骤4：采用逐元素求均值的方法融合两类具有不同感受野的多尺度增强特征图。

步骤4.1：使用公式

步骤4.2：使用公式

本发明通过以上实施例的设计，可以提高通用目标检测网络的精度。本发明的一种双检测头结构单独成为一个模块，可以方便地应用在各种目标检测网络中。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于目标检测网络的双检测头结构，其特征在于：包括如下步骤，

2.如权利要求1所述的一种适用于目标检测网络的双检测头结构，其特征在于：步骤1的实现方法为，将输入图片缩放至网络要求要求的大小并标准化。标准化后的图片经过骨干网络提取多阶段特征图{C₃，C₄，C₅，C₆，C₇}，多阶段特征经过特征金字塔进行特征融合，生成多尺度特征图{P₃，P₄，P₅，P₆，P₇}。

3.如权利要求1所述的一种适用于目标检测网络的双检测头结构，其特征在于：步骤2的实现方法为，

4.如权利要求1所述的一种适用于目标检测网络的双检测头结构，其特征在于：步骤3的实现方法为，

步骤3.1：在多尺度特征图{P₃，P₄，P₅，P₆，P₇}四围填充宽度为1值为0的像素，输入分类分支Cls1，输出多尺度增强特征图{F_{3_cls1}，F_{4_cls1}，F_{5_cls1}，F_{6_cls1}，F_{7_cls1}}；

步骤3.2：在多尺度特征图{P₃，P₄，P₅，P₆，P₇}四围填充宽度为1值为0的像素，输入回归分支Reg1，输出多尺度增强特征图{F_{3_reg1}，F_{4_reg1}，F_{5_reg1}，F_{6_reg1}，F_{7_reg1}}；

步骤3.3：在多尺度特征图{P₃，P₄，P₅，P₆，P₇}四围填充宽度为2值为0的像素，输入分类分支Cls2，输出多尺度增强特征图{F_{3_cls2}，F_{4_cls2}，F_{5_cls2}，F_{6_cls2}，F_{7_cls2}}；

步骤3.4：在多尺度特征图{P₃，P₄，P₅，P₆，P₇}四围填充宽度为2值为0的像素，输入回归分支Reg2，输出多尺度增强特征图{F_{3_reg2}，F_{4_reg2}，F_{5_reg2}，F_{6_reg2}，F₇__reg2}。

5.如权利要求1所述的一种适用于目标检测网络的双检测头结构，其特征在于：步骤4的实现方法为，

步骤4.1：使用公式

融合具有不同感受的多尺度增强特征图{F_{3_cls1}，F_{4_cls1}，F_{5_cls1}，F_{6_cls1}，F_{7_cls1}}和{F_{3_cls2}，F_{4_cls2}，F_{5_cls2}，F_{6_cls2}，F_{7_cls2}}，生成多尺度分类增强特征图{F_{3_cls}，F_{4_cls}，F_{5_cls}，F_{6_cls}，F_{7_cls}}；

步骤4.2：使用公式

融合具有不同感受的多尺度增强特征图{F_{3_reg1}，F_{4_reg1}，F_{5_reg1}，F_{6_reg1}，F_{7_reg1}}和{F_{3_reg2}，F_{4_reg2}，F_{5_reg2}，F_{6_reg2}，F_{7_reg2}}，生成多尺度回归增强特征图{F_{3_reg}，F_{4_reg}，F_{5_reg}，F_{6_reg}，F_{7_reg}}。

6.如权利要求1所述的一种适用于目标检测网络的双检测头结构，其特征在于：步骤5的实现方法为，

步骤5.1：使用多尺度分类增强特征图{F_{3_cls}，F_{4_cls}，F_{5_cls}，F_{6_cls}，F_{7_cls}}预测多目标的类别；

步骤5.2：使用多尺度回归增强特征图{F_{3_reg}，F_{4_reg}，F_{5_reg}，F_{6_reg}，F_{7_reg}}预测多目标的边界框。