CN111476252B

CN111476252B - 一种面向计算机视觉应用的轻量化无锚框目标检测方法

Info

Publication number: CN111476252B
Application number: CN202010257831.2A
Authority: CN
Inventors: 徐小龙; 赵家瀚
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2022-07-29
Anticipated expiration: 2040-04-03
Also published as: CN111476252A

Abstract

本发明公开了一种面向计算机视觉应用的轻量化无锚框目标检测方法，包括如下步骤：将输入图片通过轻量化的主干网络提取特征；利用轻量化主干网络中的一部分特征图构建轻量化特征金字塔结构；将特征金字塔上每层特征图的每个像素点坐标映射回原图，得到所有预测边框的中心点坐标；特征金字塔每层特征图后都连接轻量化预测分支，以获取预测边框信息；将图片通过网络，由所有预测分支得到的预测边框信息解码和计算得到所有预测边框；进行非极大值抑制得到最终检测识别结果。本发明采用无锚框设计思想，消除了锚框带来的所有人工设计超参数和复杂计算从而节省训练时的内存占用，并结合特征金字塔结构提高模型对各尺度目标敏感度从而提升检测精度。

Description

一种面向计算机视觉应用的轻量化无锚框目标检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种面向计算机视觉应用的轻量化无锚框目标检测方法。

背景技术

目标检测一直是计算机视觉中的一个重要问题，它的主要任务是通过计算，自动完成对一张图片中感兴趣目标的位置和类别的预测。

在诸如自动驾驶和无人机之类的计算机视觉应用场景中，模型轻量化对目标检测算法至关重要。所以，为突破神经网络模型的存储空间和功耗的限制，模型轻量化工作一直在推进中，主要分为设计轻量化神经网络模型与模型压缩两种方式，且前者优先级更高。近年来，计算机视觉研究者们提出了许多设计巧妙的轻量化神经网络模型，大大降低了模型参数量。同时，研究人员还将轻量化神经网络模型应用于目标检测算法的骨干网络，从而提出了许多轻量化目标检测算法。

但是，这些算法都是基于锚框的，其作用主要是显式枚举出不同尺度和长宽比的先验框以预测不同尺度的信息，带来了诸多不便：如由锚框引入的许多超参数都需要细致的人工设计，大量锚框带来的正负样本比例不均衡等。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种面向计算机视觉应用的轻量化无锚框目标检测方法，该方法结合轻量化卷积结构和标准空洞卷积组设计轻量化主干网络、轻量化特征金字塔、轻量化预测分支，在增大感受野和丰富各层语义信息的前提下，减小网络参数量和计算量，提高网络速度；同时，该方法采用无锚框设计思想，消除了锚框带来的所有人工设计超参数和复杂计算从而节省训练时的内存占用，并结合特征金字塔结构提高模型对各尺度目标敏感度从而提升检测精度。故具有很好的普适性，可以应用到所有计算机视觉应用的目标检测任务中。

技术方案：为实现上述目的，本发明提供一种面向计算机视觉应用的轻量化无锚框目标检测方法，包括如下步骤：

1)利用结合了标准化空洞卷积组并采用轻量化设计的主干网络提取输入图片的特征；

2)利用步骤1的主干网络中挑选出的尺度不同的特征图构建轻量化特征金字塔结构；

3)将步骤2得到的特征金字塔上每层特征图的每个像素点坐标映射回原图，得到所有预测边框在原图中的中心点坐标；

4)将特征金字塔的特征图都连接结构相同的轻量化预测分支，获取预测边框信息；

5)将图片通过训练好的网络，由步骤3得到的所有预测边框中心点坐标和步骤4得到的预测边框信息进行解码和计算，得到所有预测边框；

6)对步骤5得到的预测边框进行非极大值抑制得到最终检测识别结果。

进一步地，所述步骤1中的主干网络包括分组置乱模块，分组置乱模块按规则堆叠构成标准化空洞卷积组，所述主干网络由标准化空洞卷积组与下采样单元交替堆叠构成。

进一步地，所述步骤2中轻量化特征金字塔结构的具体构建过程为：

从主干网络特征图里挑选出尺度不同的N层特征图，通过横向连接和双线性插值上采样，自顶向下做特征融合，最后再采用卷积核对每个融合结果进行卷积消除上采样的混叠效应，得到N个特征图，再由其中一个特征图通过M次下采样，得到M个特征图，从而由N个特征图和M个特征图构建N+M层结构的轻量化特征金字塔结构。

进一步地，所述步骤3的具体过程为：

由步骤2得到的特征金字塔上的N+M层特征图分别对输入图片进行下采样，设N+M层特征图中某一层上的某一个像素点坐标为(x_p,y_p)，且该层对输入图片进行了步幅为s倍的下采样，则这个像素点映射到输入图片上的坐标，即该像素点代表的预测边框在输入图片上的中心点坐标(x,y)为：

按此规则，将这些特征图上的每个像素点坐标映射回原图，得到所有预测边框在原图中的中心点坐标。

进一步地，所述步骤4中轻量化预测分支分两路，每路都由一个卷积开始，其后第一路再次通过两次卷积得到通道数为预测类别数的分类分支和中心偏离分支，第二路通过卷积得到回归分支，轻量化预测分支包含预测边框的所有信息：分类分支为预测边框的类别置信度；中心偏离分支为预测边框的中心偏离值；回归分支为预测边框中心点到四边距离。

进一步地，所述步骤5中将图片通过网络，由步骤3得到的所有预测边框中心点坐标和步骤4的归回分支中的预测边框中心点到四边距离信息计算得到所有预测边框在输入图片中的左上角和右下角坐标，将步骤4的分类分支中预测边框的类别置信度乘以中心偏离分支中的预测边框的中心偏离值，得到预测边框的最终类别置信度。

进一步地，所述预测分支的分类分支损失函数

表达式为：

预测分支的回归分支损失函数

表达式为：

其中，(x,y)为特征金字塔的特征图上的像素点映射回输入图片上的坐标，L_cls为焦点损失函数，L_reg为交并比损失函数，p_x,y为以点(x,y)为中心的预测边框的类别，

为点(x,y)所归属的真实边框的类别，t_x,y为点(x,y)到以其为中心的预测边框的四边距离，

为点(x,y)到其所归属的真实边框的四边距离，N_pos为正样本数量，

在以点(x,y)为中心的预测边框类别不是背景类时置1，是背景类时置0；

中心偏离值centerness^*表达式为：

其中l^*、r^*、t^*、b^*为

具体内容，分别是点(x,y)到其所归属的真实边框的左边、右边、上边、下边的距离，预测分支的中心偏离分支损失函数就是以二值交叉熵损失函数训练中心偏离值。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明属于单阶段目标检测算法，这一属性本身在检测速度上就强于两阶段目标检测算法，在计算机视觉实际应用场景中更广泛适用。

2、本发明结合轻量化卷积结构和标准空洞卷积组设计轻量化主干网络、轻量化特征金字塔、轻量化预测分支，在增大感受野和丰富各层语义信息的前提下，减小了网络参数量和计算量，提高了检测速度。

3、本发明采用无锚框设计思想，消除了锚框带来的所有人工设计超参数和复杂计算从而节省训练时的内存占用。

4、本发明巧妙利用特征金字塔结构消除正样本归属类别模糊性，提高了模型对各尺度目标敏感度从而提升了检测精度。

附图说明

图1为本发明方法的网络结构示意图。

图2为本发明方法轻量化主干网络中的基本构成单元分组置乱模块结构示意图。

图3为本发明方法网络结构中标准卷积(左)与扩张率为2的空洞卷积(右)示意图。

图4为本发明与目前主流的轻量化目标检测算法Tiny YOLO系列在PASCALVOC2007测试集上的的检测结果对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示，本发明提供一种面向计算机视觉应用的轻量化无锚框目标检测方法，包括如下步骤：

1)对输入的图片数据，为适配网络模型对输入尺寸的要求并满足轻量化的需求，调整其大小到416×416像素；

2)将图片通过主干网络提取特征，主干网络结合标准化空洞卷积组并采用轻量化设计。轻量化主干网络详细结构如表1所示：

表1

其中，分组置乱模块，其结构如图2所示，其本质为轻量化的残差模块，将输入特征图分为两路，一路通过卷积核1×1的卷积构成的短路分支得到与输入特征图相同维度的输出；另一路首先经过通道分组操作将输入特征图拆成长宽不变且通道数减半的两个特征图，将这两个特征图再通过3×3卷积核分解成的1×3与3×1的标准卷积与空洞卷积组成的全卷积结构之后，再通过连结操作合成出与输入特征图相同维度的特征图，接着将该特征图与短路分支的输出做逐元素加法，最后再进行通道置乱操作得到最终的输出特征图。上述空洞卷积具体为：如果卷积核的大小为k×k，那么在扩张率为r时，需要在卷积核中插入r-1个零值。卷积核的尺寸将扩大为k_e：

k_e＝k+(k-1)(r-1)

上述连结操作和逐元素加法操作具体为：以两路输入为例，假设输入的通道分别为X_i和Y_i(1≤i≤c，c为通道数)，连结操作的单个输出通道Z_concat为：

元素级别加法操作的单个输出通道Z_add为：

下采样单元，是由一个步幅为2、卷积核为3×3卷积层和一个最大池化层堆叠而成。扩张率不同的分组置乱模块堆叠构成标准化空洞卷积组，且该结构须满足：堆叠的分组置乱模块的扩张率不能有大于1的公约数；堆叠的分组置乱模块的扩张率被设计为锯齿状循环结构，为了便于理解，图3显示了空洞卷积和标准卷积的对比示意图。该主干网络由标准化空洞卷积组与下采样单元交替堆叠5次构成，如图1左侧部分所示。步骤1输入图片通过5次堆叠的网络层提取特征后得到的输出特征图由浅到深分别为B₁、B₂、B₃、B₄、B₅；

3)从步骤2中主干网络特征图里挑选出尺度不同的3层特征图B₃、B₄、B₅，通过横向连接和双线性插值上采样，自顶向下做特征融合，最后再采用3×3卷积核对每个融合结果进行卷积消除上采样的混叠效应，分别得到通道数全部设为128的特征图P₃、P₄、P₅，它们的大小与B₃、B₄、B₅相同，分别为52×52、26×26、13×13，再由P₅通过2次由步幅为2、卷积核为3×3卷积层形成的下采样，得到特征图P₆、P₇，它们的通道数也设为128，大小分别为7×7、4×4。从而由特征图P₃、P₄、P₅、P₆、P₇构建5层结构的轻量化特征金字塔结构。故上述5层特征图可以提供52×52+26×26+13×13+7×7+4×4＝3614个预测边框信息；

4)由步骤3得到的特征金字塔上的5层特征图P₃、P₄、P₅、P₆、P₇分别对步骤1的输入图片进行了步幅为8、16、32、64、128倍的下采样。设5层特征图中某一层上的某一个像素点坐标为(x_p,y_p)，且该层对输入图片进行了步幅为s倍的下采样，则这个像素点映射到输入图片上的坐标，即该像素点代表的预测边框在输入图片上的中心点坐标(x,y)为：

按此规则，将这些特征图上的每个像素点坐标映射回原图，得到所有预测边框在原图中的中心点坐标；

5)将步骤3得到的特征金字塔的5层特征图后都连接结构相同的轻量化预测分支，在此阶段特征图长宽不变。该预测分支分两路，每路都由一个卷积核为3×3的卷积开始，其后第一路再次通过两次卷积核为3×3的卷积得到通道数为预测类别数的分类分支和通道数为1的中心偏离分支，第二路通过卷积核为3×3的卷积得到通道数为4的回归分支。预测分支包含预测边框的所有信息，且各预测分支输出特征图的大小与同级的特征金字塔的特征图大小对应一致，分类分支为预测边框的类别置信度，其中最高的置信度记为p；中心偏离分支为预测边框的中心偏离值centerness^*；回归分支为预测边框中心点到左、右、上、下四边的距离l、r、t、b。

6)将图片通过网络，由步骤4得到的所有预测边框中心点坐标和步骤5的归回分支中的预测边框中心点到四边距离信息计算得到所有预测边框在输入图片中的左上角坐标(x₀,y₀)和右下角坐标(x₁,y₁)，具体计算为：

(x₀,y₀)＝(x-l,y-t)

(x₁,y₁)＝(x+r,y+b)

将步骤5的分类分支中预测边框的最高的类别置信度乘以中心偏离分支中的预测边框的中心偏离值，得到预测边框的最终类别置信度。

7)依照网络预测得分对步骤6所得预测边框进行非极大值抑制，即选取相邻预测边框中得分高的边框，抑制相邻预测边框中得分低的边框，从而得到模型最终的预测边框。

本发明中在训练部分，预测分支的分类分支损失函数

表达式为：

预测分支的回归分支损失函数

表达式为：

其中，(x,y)为特征金字塔上5层特征图上的像素点映射回输入图片上的坐标；L_cls为焦点损失函数，其表达式为：

L_cls＝-0.25(1-p_x,y)²log(p_x,y)

L_reg为交并比损失函数：设

为一对预测边框和真实边框交集的面积，

为它们并集的面积，则其表达式为：

p_x,y为以点(x,y)为中心的预测边框的类别，

在以点(x,y)为中心的预测边框类别不是背景类时置1，是背景类时置0。中心偏离值centerness^*表达式为：

其中l^*、r^*、t^*、b^*为

具体内容，也是预测边框位置的回归目标，分别是点(x,y)到其所归属的真实边框的左边、右边、上边、下边的距离。特征金字塔的5层特征图P₃、P₄、P₅、P₆、P₇分别具有步幅8、16、32、64、128。边界框回归的范围须受到限制，具体规则为：如果某个预测边框位置的回归目标满足下式：

m_i-1＜max(l^*,t,^*r^*,b,^*)＜m_i

则将其归为正样本，需要对其回归边界框。其中m_i是需要回归的最大距离，这里m₂、m₃、m₄、m₅、m₆、m₇分别设置为0、64、128、256、512和∞。预测分支的中心偏离分支损失函数就是以二值交叉熵损失函数训练中心偏离值。所有正样本都需要按照以上规则计算损失值，通过加权这3个损失函数加对该网络(步骤2至步骤5)进行训练。

本实施例中将上述方法和模型应用于公路场景的检测识别当中，并与目前主流的轻量化目标检测算法Tiny YOLO系列在数据集PASCAL VOC上进行对比，在该数据集上的实验采用目标检测中惯用的实验方式，即：将VOC2007的训练集及验证集和VOC2012的训练集及验证集合并，整体作为训练集进行联合训练；在VOC2007的测试集上进行检测分析。其整体性能对比结果如表2所示，其中M表示百万；B表示10亿；单帧检测速度和每秒检测帧数均在NVIDIA RTX2080Ti GPU上测得；ms表示毫秒；mAP为目标检测算法中最重要的的衡量算法精度的指标mean Average Precision：

表2

由表2可以看出，本发明的参数量仅为Tiny YOLOv2的约50％，与Tiny YOLOv3基本持平；计算量较Tiny YOLOv2也有所降低，虽较Tiny YOLOv3多出约20％，但已达到轻量化要求；单帧检测速度和每秒检测帧数也超越Tiny YOLOv2，直追Tiny YOLOv3；而在精度指标mAP上，本发明全面超越Tiny YOLO系列，较Tiny YOLOv3上升4个百分点。

上述算法在测试集上的检测结果如图4所示，其中(a)、(b)、(c)分别为TinyYOLOv2、Tiny YOLOv3、本发明检测结果图，由于本发明堆叠使用标准化设计的空洞卷积组，故对小目标和大目标都有较好的敏感度，又由于网络采用特征金字塔结构消除重叠正样本在训练时的分类模糊性，故本发明对重叠目标的类别也能较好地区分。

Claims

1.一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：包括如下步骤：

3)将步骤2得到的特征金字塔上每层特征图的每个像素点坐标映射回输入图片，得到所有预测边框在输入图片中的中心点坐标；

6)对步骤5得到的预测边框进行非极大值抑制得到最终检测识别结果；

所述步骤2中轻量化特征金字塔结构的具体构建过程为：

2.根据权利要求1所述的一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：所述步骤1中的主干网络包括分组置乱模块，分组置乱模块按规则堆叠构成标准化空洞卷积组，所述主干网络由标准化空洞卷积组与下采样单元交替堆叠构成。

3.根据权利要求1所述的一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：所述步骤3的具体过程为：

4.根据权利要求1所述的一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：所述步骤4中轻量化预测分支分两路，每路都由一个卷积开始，其后第一路再次通过两次卷积得到通道数为预测类别数的分类分支和中心偏离分支，第二路通过卷积得到回归分支，轻量化预测分支包含预测边框的所有信息：分类分支为预测边框的类别置信度；中心偏离分支为预测边框的中心偏离值；回归分支为预测边框中心点到四边距离。

5.根据权利要求4所述的一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：所述步骤5中将图片通过网络，由步骤3得到的所有预测边框中心点坐标和步骤4的归回分支中的预测边框中心点到四边距离信息计算得到所有预测边框在输入图片中的左上角和右下角坐标，将步骤4的分类分支中预测边框的类别置信度乘以中心偏离分支中的预测边框的中心偏离值，得到预测边框的最终类别置信度。

6.根据权利要求4所述的一种面向计算机视觉应用的轻量化无锚框目标检测方法，其特征在于：所述预测分支的分类分支损失函数

表达式为：

预测分支的回归分支损失函数

表达式为：

其中，(x,y)为特征金字塔的特征图上的像素点映射回输入图片上的坐标，L_cls为焦点损失函数，L_reg为交并比损失函数，p_xy为以点(x,y)为中心的预测边框的类别，

中心偏离值centerness^*表达式为：

其中l^*、r^*、t^*、b^*为