CN114581866A

CN114581866A - 一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法

Info

Publication number: CN114581866A
Application number: CN202210077170.4A
Authority: CN
Inventors: 王海; 徐岩松; 蔡英凤; 吴逸飞; 陈龙; 李祎承; 刘擎超
Original assignee: Bestar Holding Co ltd; Jiangsu University
Current assignee: Bestar Holding Co ltd; Jiangsu University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-06-03

Abstract

本发明涉及智能汽车驾驶技术领域，尤其是一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，包括：将车载相机捕获的自动驾驶汽车周围的图片进行特征提取，获得不同尺度的特征图，对生成的特征图进行采样处理，生成由不同尺度的特征图组成的特征金字塔，不同的特征图作为检测头模块的输入，对不同的特征图进行卷积操作，生成最终的预测结果。本发明的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，通过使用特征提取模块生成的不同尺度的特征图组成的特征金字塔结构，提高了驾驶环境下无人驾驶汽车对小目标的检测精度；提高了无人驾驶汽车检测的鲁棒性；满足无人驾驶检测的实时性要求。

Description

一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法

技术领域

本发明涉及智能汽车驾驶技术领域，尤其是一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法。

背景技术

近年来随着深度学习的快速发展，计算平台硬件算力的不断提高，以及摄像头，雷达，激光雷达等车载传感器成本的不断降低，促进了自动驾驶感知技术的进步。可靠的感知系统是自动驾驶汽车在复杂交通工况下正常运行的先决条件，基于视觉的目标检测算法具有感知精度高，成本低等优势，受到学术界和工业界的广泛应用。

基于深度学习的计算机视觉算法无论在速度还是在精度上都远远超越了基于手工特征的传统检测算法。当前主流的物体检测算法主要包括：基于锚框的检测算法和无锚框的检测算法。无锚框的检测算法较于基于锚框的检测算法具有网络结构简单，检测速度快等优势。CenterNet是经典的无锚框的通用检测算法，但在复杂的驾驶场景下检测精度不够。

发明内容

本发明要解决的技术问题是：为了解决上述背景技术中存在的问题，提供一种改进的基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，解决上述背景技术中存在的问题。

本发明提出了一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，包括以下步骤：

S1，将车载相机捕获的自动驾驶汽车周围的图片进行特征提取，获得不同尺度的特征图；

S2，对步骤S1生成的特征图进行采样处理，生成由不同尺度的特征图组成的特征金字塔；

S3，提取步骤S2中不同的特征图作为检测头模块的输入，对不同的特征图进行卷积操作，生成最终的预测结果。

优选地，S1具体包括：

特征提取网络由5个特征提取阶段组成，每个特征提取阶段由若干个特征提取块组成，每个特征提取块由3×3卷积、1×1的卷积、ReLu激活函数、恒等映射分支和批量归一化层组成；5个特征提取阶段的特征提取块的数量分别为1，4，6，16，1；

在训练阶段，除了每个特征提取阶段的第1个特征提取块由1个3×3卷积、1个1×1卷积、ReLu激活函数、恒等映射分支和批量归一化层组成之外，其余的特征提取块均由1个3×3卷积，1个1×1卷积、恒等映射分支和批量归一化层组成；

在推理阶段，每个特征提取块通过结构重参数化技术转变为一个3×3卷积，将图片送入特征提取网络，最终生成尺寸为[64，256，256]的特征图C1，尺寸为[128，128，128]的特征图C2，尺寸为[256，64，64]的特征图C3，尺寸为[512，32，32]的特征图C4，尺寸为[2048，16，16]的特征图C5。

优选地，S2具体包括：

将步骤S1生成的特征图C5进行上采样操作，再使用可变形卷积操作将通道数从2048设为512，最终生成尺寸为[512，16，16]的特征图P5，将特征图C4和特征图P5进行逐元素相加，再将相加后的特征图再进行上采样操作和使用可变形卷积；以此类推，组成特征金子塔，其中，特征金字塔的最后一层输出和倒数第二层输出将作为步骤S3的输入。

优选地，S3具体包括：

使用最后一层特征图来回归物体的热图，预测中心点和实际中心点之间的偏移量以及初步预测的物体的尺寸框，将特征金字塔的倒数第1层的特征图A1进行卷积操作，卷积核为1×1，步距为1，padding为1；

将生成的特征图分别进行不同的卷积操作，分别生成一个尺寸为[H，W，num_classes],两个尺寸为[H，W，2]的特征图；2个尺寸为[H，W，2]的特征图分别回归预测中心点和实际中心点之间的偏移量以及初步预测的物体的bounding box；

用特征金字塔的倒数第二层特征图进行三次卷积用于生成高语义的特征图，尺寸为[H，W，5C]，然后将生成的尺寸为[H，W，5C]的特征图和粗略的物体尺寸框回归参数一并送入平均边界提取模块用来生成准确的物体的尺寸框信息，其中平均边界提取模块是物体的尺寸框回归模块，其直接利用边界特征加强中心点特征。

优选地，所述平均边界提取模块的结构流程包括：

首先将卷积操作生成的尺寸为[H，W，5C]特征图和初步预测的物体的尺寸框回归参数作为输入，然后将生成的粗尺寸框投影到通道数为5C的特征图上；

其次将各个边界分为N个点，N表示下一步操作的平均池化的卷积核尺寸，再采用逐通道的平均池化操作生成平均边界；

然后平均边界提取模块可以利用边界的平均点来表示边界特征，对尺寸为通道数数为5C的特征图采用的是逐通道平均池化操作，即对每个边界分别做池化操作；

最后将平均边界提取模块生成的具有明确边界信息的特征图进行两次卷积操作用来最终预测尺寸框的尺寸和位置。

优选地，所述num_classes表示特征图上每个像素的类别，所述的5C可表示为(4+1)C，其中C表示类别，4C表示每种类别的4个边界，C表示中心点。

优选地，所述特征提取网络的网络结构转换流程包括：

首先将卷积和其对应的批量归一化层转化为带有偏差的卷积，然后将1×1卷积分支和恒等映射分支通过补零的方式转化为3×3卷积分支，然后分别和其对应的批量归一化层转化，最后将来自3个分支转化的卷积核和偏差相加得到最后卷积核和偏差。

本发明的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法通过使用特征提取模块生成的不同尺度的特征图组成的特征金字塔结构，提高了驾驶环境下无人驾驶汽车对小目标的检测精度；本发明通过平均边界提取模块来辅助中心点回归边界尺寸，提高对目标边界的回归精度，同时提高了遮挡场景下的检测精度，提高了无人驾驶汽车检测的鲁棒性；本发明通过引入RepVGG特征提取器作为检测算法的特征提取模块，通过结构重参数化技术减小检测算法的规模，使得检测速度大大提高，满足无人驾驶检测的实时性要求。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的多目标视觉检测算法流程图。

图2是本发明的特征提取模块结构图。

图3是本发明中训练阶段和推理阶段的特征提取网络的网络结构转换图。

图4是本发明中训练阶段和推理阶段的特征提取网络的参数转化图。

图5是本发明中平均边界提取模块。

具体实施方式

为了对本申请实施例的技术方案、优点更加清晰，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加清楚、完整的描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部实施例。基于本申请的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1和图2所示的本发明提出了一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其整体实施过程如图1所示，主要包括以下步骤：

步骤S1：将车载相机捕获的自动驾驶汽车周围的图片进行特征提取，获得不同尺度的特征图，其具体步骤如下所示；

如图3和图4所示，特征提取网络由5个特征提取阶段stage组成，每个特征提取阶段又由若干个特征提取块组成，每个特征提取块由3×3卷积、1×1卷积、ReLu激活函数、恒等映射分支和批量归一化层组成。

5个特征提取阶段的特征提取块数量为[1，4，6，16，1]。特征提取阶段stage1只由1个特征提取块block组成，原因是获取的图片分辨率很大，处理时间长，为了提高速度选择由一个特征提取块提取图片特征。为了获得高分辨率的特征图以及更快的推理时间，最后1个特征提取阶段stage通道数很多，故只用1个特征提取块block来保存参数。

在训练阶段，除了每个特征提取阶段的第1个特征提取快由1个3×3卷积、1个1×1卷积、ReLu激活函数、恒等映射分支和批量归一化层组成之外，其余的特征提取块均由1个3×3卷积、1个1×1卷积、恒等映射分支和批量归一化层组成。将图片送入特征提取网络，最终生成尺寸为[64，256，256]，[128，128，128]，[256，64，64]，[512，32，32]，[2048，16，16]的特征图C1，C2，C3，C4，C5，结构图见图2。

在推理阶段，每个特征提取块通过结构重参数化技术转变为一个3×3卷积，转化示意图见图3。

其中训练阶段和推理阶段的特征提取网络的网络结构转换具体步骤如下：假设输出特征的通道数和输出特征通道数都是2，则3×3卷积的卷积核尺寸为W⁽³⁾＝R^2×2×3×3，1×1的卷积的卷积核尺寸为W⁽¹⁾＝R^2×2×1×1，μn,σn,γn,βn表示卷积之后的累积平均值，标准差，比例因子和批量归一化层的偏差，n∈{3,1,0}表示3×3卷积操作，1×1卷积操作，恒等映射分支。首先将卷积和其对应的批量归一化层转化为带有偏差的卷积，然后将1×1卷积分支和恒等映射分支通过padding的方式转化为3×3卷积分支，然后分别和其对应的批量归一化层转化，最后我们将来自3个分支转化的卷积核和偏差相加得到最后卷积核和偏差，参数转化示意图见图4。

步骤S2：对步骤S1生成的特征图进行采样处理，生成由不同尺度的特征图组成的特征金字塔，其具体步骤如下所示；

首先将步骤S1生成的特征图C5进行上采样操作，再使用可变形卷积操作将通道数从2048变为512，最终生成尺寸为[512，16，16]的特征图P5，将特征图C4和特征图P5进行逐元素相加，再将相加后的特征图再进行上采样操作和使用可变形卷积，以此类推，组成特征金子塔，其中特征金字塔的最后一层输出和倒数第二层输出将作为步骤3的输入。

步骤S3：提取步骤2中不同的特征图作为检测头模块的输入，对不同的特征图进行卷积操作，生成最终的预测结果，具体步骤如下所示；

使用最后一层特征图来回归物体的热图，预测中心点和实际中心点之间的偏移量以及初步预测的物体的尺寸框。将特征金字塔的倒数第1层的特征图A1进行卷积操作，卷积核为1×1，步距为1，padding为1，目的是消除在上采样过程中带来的特征重叠效应，然后将生成的特征图分别进行不同的卷积操作，分别生成一个尺寸为[H，W，num_classes],两个尺寸为[H，W，2]的特征图，其中num_classes表示特征图上每个像素的类别，2个尺寸为[H，W，2]的特征图分别回归预测中心点和实际中心点之间的偏移量以及初步预测的物体的边界框。之所以用最后一层特征图回归粗的尺寸框的参数是因为是最后一层特征图分辨率高，对回归小物体的尺寸框有利。用特征金字塔的倒数第二层特征图进行三次卷积用于生成高语义的特征图，尺寸为[H，W，5C]，其中5C可表示为(4+1)C，其中C表示类别，4C表示每种类别的4个边界(上下左右)，C表示中心点。然后将上一步生成的尺寸为[H，W，5C]的特征图和粗略的物体尺寸框回归参数一并送入平均边界提取模块用来生成准确的物体的尺寸框信息。

如图5所示，平均边界提取模块是新设计的物体的尺寸框回归模块，其直接利用边界特征加强中心点特征，其示意图见图5。平均边界提取模块具体结构流程如下：首先，将卷积操作生成的尺寸为[H，W，5C]特征图和初步预测的物体的尺寸框回归参数作为输入，然后，将生成的粗尺寸框投影到通道数为5C的特征图上，其次我们将各个边界分为N个点，N表示下一步操作的平均池化的卷积核尺寸，再采用逐通道的平均池化操作生成平均边界。之所以我们将边界分为若干的点进行操作是因为我们认为在边界上逐点的提取边界特征是费时和更加消耗内存的，接下来的平均边界提取模块可以利用边界的平均点来表示边界特征。我们对尺寸为通道数数为5C的特征图采用的是逐通道平均池化操作，即对每个边界分别做池化操作，这样更能表示边界的特征。最后我们将平均边界提取模块生成的具有明确边界信息的特征图进行两次卷积操作用来最终预测尺寸框的尺寸和位置。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，S1具体包括：

3.根据权利要求1所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，S2具体包括：

4.根据权利要求1所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，S3具体包括：

5.根据权利要求4所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，所述平均边界提取模块的结构流程包括：

6.根据权利要求4所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，所述num_classes表示特征图上每个像素的类别，所述的5C可表示为(4+1)C，其中C表示类别，4C表示每种类别的4个边界，C表示中心点。

7.根据权利要求2所述的一种基于改进CenterNet的自动驾驶场景的多目标视觉检测算法，其特征在于，所述特征提取网络的网络结构转换流程包括：