CN110717527A

CN110717527A - 结合空洞空间金字塔结构的目标检测模型确定方法

Info

Publication number: CN110717527A
Application number: CN201910903123.9A
Authority: CN
Inventors: 张小国; 高烨; 王慧青
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-21
Anticipated expiration: 2039-09-24
Also published as: CN110717527B

Abstract

本发明公开了一种结合空洞空间金字塔结构的目标检测模型确定方法，通过将输入特征图分别输入k个空洞卷积层分支，分别在各个空洞卷积层分支对输入特征图进行空洞卷积操作，得到各个输出特征图，以将输入特征图与k个输出特征图进行融合，构造空洞空间金字塔结构，并将空洞空间金字塔结构融入基于卷积网络的目标检测模型，上述空洞空间金字塔结构通过利用具体不同扩张率的空洞卷积对输入特征图进行重采样，得到具有不同感受野的输出特征图，再通过将输入与输出进行特征融合以获取多尺度信息，将空洞空间金字塔结构融入基于深度学习的目标检测模型中，能够提高基于深度学习的目标检测模型对多尺度目标的检测能力。

Description

结合空洞空间金字塔结构的目标检测模型确定方法

技术领域

本发明涉及基于深度学习的目标检测技术领域，尤其涉及一种结合空洞空间金字塔结构的目标检测模型确定方法。

背景技术

实时多尺度目标检测是计算机视觉中最具挑战性的任务之一。传统的目标检测算法一般分为三个阶段：在给定的图像上选择候选区域，从这些区域中提取特征，最后用训练好的分类器对每个区域进行分类。这类算法的性能一般取决于设计者提取特征的表达能力。

近年来，随着大数据技术的发展和计算性能的提高，深度卷积神经网络(DCNN)在目标检测方面取得了显著的进展。现有的基于DCNN的目标检测算法大致可以分为两类：(1)两阶段方法，主要包括R-CNN、Fast R-CNN、Faster R-CNN和R-FCN；(2)单阶段方法，主要包括YOLO(You only look once)和SSD(Single Shot MultiBox Detector)。

两阶段方法首先生成一系列区域建议，然后利用CNN进行特征提取，进行分类和边界盒回归。两阶段方法虽然取得了较好的性能，但由于计算量大，在实时应用中速度较慢。单阶段方法将目标检测看作一个单一的回归问题，具有较高的计算效率，能够实现实时检测，但其精度往往低于两阶段方法。

目前，在目标检测领域，研究者们常通过构建图像金字塔或者构建特征金字塔以近似替代图像金字塔来获取多尺度信息，以应对多目标检测问题，虽然目标检测性能在一定程度上有所提高，但对多尺度目标的检测仍是有待进一步解决的难点。

发明内容

针对以上问题，本发明提出一种结合空洞空间金字塔结构的目标检测模型确定方法。

为实现本发明的目的，提供一种结合空洞空间金字塔结构的目标检测模型确定方法，包括如下步骤：

S10，将输入特征图分别输入k个空洞卷积层分支，分别在各个空洞卷积层分支对输入特征图进行空洞卷积操作，得到各个空洞卷积层分支输出的输出特征图；其中，所述k个空洞卷积层分支为并行的，且各个空洞卷积层分支具有不同扩张率；

S20，将输入特征图与k个空洞卷积层分支输出的输出特征图进行融合，构造空洞空间金字塔结构；

S30，将所述空洞空间金字塔结构融入基于卷积网络的目标检测模型。

在一个实施例中，所述将输入特征图分别输入k个空洞卷积层分支，分别在各个空洞卷积层分支对输入特征图进行空洞卷积操作，得到各个空洞卷积层分支输出的输出特征图包括：

向k个空洞卷积层分支分别输入的输入特征图的信息包括：n×W×H×C；其中，n表示批量处理的图的个数，W表示输入特征图的宽，H表示输入特征图的高，C表示批量处理的图的通道数；

分别在各个空洞卷积层分支对各个输入特征图进行空洞卷积操作；

获取各个空洞卷积层分支的输出特征图。

作为一个实施例，第i个空洞卷积层分支的输出特征图为：n×W_i×H_i×m,其中i＝1,2,...,k，W_i表示第i个空洞卷积层分支中输出图的宽度参数，H_i表示第i个空洞卷积层分支中输出图的高度参数，m表示各个空洞卷积层分支的卷积核数。

作为一个实施例，在分别在各个空洞卷积层分支对各个输入特征图进行空洞卷积操作之前，还包括：

分别在各个输入图片的宽方向上补充P_w个0，分别在各个输入图片的高方向上补充P_h个0，使得W_i＝W，H_i＝H；其中，

在一个实施例中，所述将输入特征图与k个空洞卷积层分支输出的输出特征图进行融合，构造空洞空间金字塔结构包括：

将输入特征图和k个空洞卷积层分支的输出特征图在通道的维度上进行拼接，得到拼接数据：n×W×H×(C+k×m)；其中，n表示批量处理的图的个数，W表示输入特征图的宽，H表示输入特征图的高，C表示输入图的通道数，m表示各个空洞卷积层分支的卷积核数；

采用具有p个1×1卷积核的卷积层运算所述拼接数据，以降低拼接数据的维度，再采用Batch Normalization层和Relu激活函数对降低维度后的拼接数据进行处理，得到融合后的包含多尺度信息的拼接特征图，构建空洞空间金字塔结构。

作为一个实施例，p的取值为m。

在一个实施例中，所述将空洞空间金字塔结构融入基于卷积网络的目标检测模型包括：

将所述空洞空间金字塔结构置于目标检测网络的基础特征提取网络之后，并置于目标检测层之前，得到结合空洞空间金字塔结构的目标检测模型。

上述结合空洞空间金字塔结构的目标检测模型确定方法，通过将输入特征图分别输入k个空洞卷积层分支，分别在各个空洞卷积层分支对输入特征图进行空洞卷积操作，得到各个空洞卷积层分支输出的输出特征图，以将输入特征图与k个空洞卷积层分支输出的输出特征图进行融合，构造空洞空间金字塔结构，并将空洞空间金字塔结构融入基于卷积网络的目标检测模型，上述空洞空间金字塔结构通过利用具体不同扩张率的空洞卷积对输入特征图进行重采样，得到具有不同感受野的输出特征图，再通过将输入与输出进行特征融合以获取多尺度信息，将空洞空间金字塔结构融入基于深度学习的目标检测模型中，能够提高基于深度学习的目标检测模型对多尺度目标的检测能力。

附图说明

图1是一个实施例的结合空洞空间金字塔结构的目标检测模型确定方法流程图；

图2是一个实施例的空洞空间金字塔结构示意图；

图3是一个实施例中空洞空间金字塔结构融入基于卷积网络的目标检测模型的过程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的结合空洞空间金字塔结构的目标检测模型确定方法流程图，包括如下步骤：

上述k个空洞卷积层分支为深度卷积神经网络的分支，k可以取4等值。

向k个空洞卷积层分支分别输入的输入特征图的信息包括：n×W×H×C；其中，n表示批量处理的图的个数，W表示输入特征图的宽，H表示输入特征图的高，C表示输入图(即批量处理的图)的通道数；

获取各个空洞卷积层分支的输出特征图。

具体地，上述特征图(如输入特征图，输出特征图)定义包括：图片是C维的，W×H×C表示每一维W×H为一个特征图，n×W×H×C表示n张图(如批量处理的图和输出图)，每张图大小是W×H×C，每张图有C个特征图。因而n×W×H×C表示有n x C个特征图。

作为一个实施例，第i个空洞卷积层分支的输出特征图信息包括：n×W_i×H_i×m,其中i＝1,2,...,k，W_i表示第i个空洞卷积层分支输出图的宽度参数，,H_i表示第i个空洞卷积层分支输出图的高度参数，m表示各个空洞卷积层分支的卷积核数。

具体地，第i个空洞卷积层分支的输出特征图中，n表示输出图的个数，输出图是m维的，W_i×H_i×m表示每一维W_i×H_i为一个特征图，n×W_i×H_i×m表示n张图，每张图大小是W_i×H_i×m，每张图有m个特征图。因而n×W_i×H_i×m表示有n×m个特征图。

具体地，向k个空洞卷积层分支分别输入的输入特征图的信息包括：n×W×H×C，输入特征图应的感受野为RF＝s×s，其中n为batch size(取值为正整数)，即批量处理图片的张数，W、H、C分别为图片对应的宽、高、通道数，取k(建议取4)个并行的分支，每个分支包含一个具有m(m建议取C)个卷积核为n×n(建议取3)的空洞卷积层、Batch Normalization层和Relu激活函数，其中第i个空洞卷积层分支的空洞卷积层对应的扩张率为i，分别将输入输送到各个分支进行计算，第i个分支输出为n×W_i×H_i×m，特征图对应的感受野为RF₁＝s₁×s₁:

s₁＝s+i(n-1)

不同的分支得到具有不同感受野的特征图。

例如，第k个分支(空洞卷积层分支)的空洞卷积层对应的扩张率为k，分别将输入输送到各个分支进行计算，第k个分支输出为n×W_k×H_k×m，特征图对应的感受野为RF₁＝s₁×s₁，s₁＝s+k(n-1)。

进行空洞卷积操作之前，对于每个分支，分别在输入特征图的宽、高方向上补充P_w,P_h个0，

即卷积神经网络中常见的padding参数，使得W_k＝W,H_k＝H，可以实现在增大感受野的同时保持输入特征图的分辨率，避免信息丢失，

作为一个实施例，p的取值为m。

具体地，将输入特征图和k个分支的输出特征图在通道的维度上直接堆积实现拼接，即卷积神经网络中的concatenation操作，输入特征图的信息包括：n×W×H×C，各分支输出特征图的信息包括：n×W×H×m，则拼接后的拼接数据包括：n×W×H×(C+k×m)。

经过具有p(建议取m)个1×1卷积核的卷积层运算拼接数据，以降低输出特征图的维度，并减小其中运算量，再经过Batch Normalization层和Relu激活函数，得到融合后的包含多尺度信息的拼接特征图：n×W×H×p。

进一步地，可以依据k个并行分支、concatenation操作层与1×1标准卷积层共同构建空洞空间金字塔结构。

S30，将空洞空间金字塔结构融入基于卷积网络的目标检测模型。

本实施例将空洞空间金字塔结构置于目标检测网络的基础特征提取网络之后，目标检测层之前，可以提高基于卷积网络的目标检测模型捕获多尺度信息的能力。

在一个实施例中，以目标检测模型YOLOv3(You Only Look Once v3)为例，将提出的空洞空间金字塔结构融入YOLOv3。此时，可以将k的值设为4，上述结合空洞空间金字塔结构的目标检测模型确定方法包括以下步骤：

(1)采用4个并行的、具有不同扩张率的空洞卷积层的分支；

(2)将输入与4个分支的输出特征图进行融合构造空洞空间金字塔结构；

(3)将空洞空间金字塔结构融入基于卷积网络的目标检测模型。

具体地，上述步骤(1)包括：

假设输入为n×W×H×C，特征图对应的感受野为RF＝s×s，其中n为batch size，即批量处理图片的张数，W、H、C分别为图片对应的宽、高、通道数，取4个并行的分支，每个分支包含一个具有C个卷积核为3×3的空洞卷积层、Batch Normalization层和Relu激活函数，其中第k个分支的空洞卷积层对应的扩张率为k，分别将输入输送到各个分支进行计算，第k个分支输出为n×W_k×H_k×C，特征图对应的感受野为RF₁＝s₁×s₁:

s₁＝s+k(n-1)

不同的分支得到具有不同感受野的特征图。

对于每个分支，为了在增大感受野的同时保持输入特征图的分辨率，避免信息丢失，进行空洞卷积操作之前，分别在输入特征图的宽、高方向上补充P_w,P_h个0，

即卷积神经网络中常见的padding参数，使得W_k＝W,H_k＝H。

步骤(2)包括：

将输入特征图和k个分支的输出特征图在通道的维度上进行拼接，即卷积神经网络中的concatenation操作，输入为n×W×H×C，各分支输出为n×W×H×C，则拼接后的输出为n×W×H×((k+1)×C)。再经过具有C个1×1卷积核的卷积层运算降低输出特征图的维度以减小运算量，再经过Batch Normalization层和Relu激活函数，得到融合后的包含多尺度信息的拼接特征图，拼接特征图的相关信息包括：n×W×H×C，可以依据拼接特征图，k个并行分支、concatenation操作层与1×1标准卷积层共同构建空洞空间金字塔结构。在一个示例中，空洞空间金字塔结构如图2所示。

在步骤(3)中，可以将空洞空间金字塔结构置于YOLOv3的基础特征提取网络之后，第一个检测层之前的第三个和第四个卷积层之间，提高模型捕获多尺度信息的能力。

在一个示例中，将空洞空间金字塔结构融入基于卷积网络的目标检测模型的过程可以参考图3所示。

在PASCAL VOC2007数据集上进行测试，融合空洞空间金字塔结构的YOLOv3模型在320×320分辨率的图像输入下，精度提高了4.2％，提高了YOLOv3处理多尺度目标的检测性能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，所述将输入特征图分别输入k个空洞卷积层分支，分别在各个空洞卷积层分支对输入特征图进行空洞卷积操作，得到各个空洞卷积层分支输出的输出特征图包括：

获取各个空洞卷积层分支的输出特征图。

3.根据权利要求2所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，第i个空洞卷积层分支的输出特征图信息包括：n×W_i×H_i×m,其中i＝1,2,...,k，W_i表示第i个空洞卷积层分支输出图的宽度参数，H_i表示第i个空洞卷积层分支输出图的高度参数，m表示各个空洞卷积层分支的卷积核数。

4.根据权利要求2所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，在分别在各个空洞卷积层分支对各个输入特征图进行空洞卷积操作之前，还包括：

分别在各个输入图片的宽方向上补充P_w个0，分别在各个输入图片的的高方向上补充P_h个0，使得W_i＝W，H_i＝H；其中，

5.根据权利要求1所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，所述将输入特征图与k个空洞卷积层分支输出的输出特征图进行融合，构造空洞空间金字塔结构包括：

将输入特征图和k个空洞卷积层分支的输出特征图在通道的维度上进行拼接，得到拼接数据：n×W×H×(C+k×m)；其中，n表示批量处理的图的个数，W表示输入特征图的宽，H表示输入特征图的高，C表示批量处理的图的通道数，m表示各个空洞卷积层分支的卷积核数；

6.根据权利要求5所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，p的取值为m。

7.根据权利要求1至6任一项所述的结合空洞空间金字塔结构的目标检测模型确定方法，其特征在于，所述将空洞空间金字塔结构融入基于卷积网络的目标检测模型包括：

将所述空洞空间金字塔结构置于目标检测网络的基础特征提取网络之后，并置于目标检测层之前，得到结合空洞空间金字塔的目标检测模型。