CN115272992B

CN115272992B - 一种车辆姿态估计方法

Info

Publication number: CN115272992B
Application number: CN202211204054.0A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 谭连胜
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-03
Anticipated expiration: 2042-09-30
Also published as: CN115272992A

Abstract

本发明属于车辆姿态估计技术领域，涉及一种车辆姿态估计方法，使用卷积神经网络生成高质量的候选框，并采用可变形卷积增强了网络聚合多尺度空间信息的能力，构建了一个高效简洁的车辆关键点检测头，能够为图像中每个车辆动态地生成一组权重，并将权重作用与特征图，并经过关键点对齐得到最终的关键点坐标，检测时间短，高效的实现车辆关键点检测，并用于实际车辆姿态估计任务中。

Description

一种车辆姿态估计方法

技术领域

本发明属于车辆姿态估计技术领域，涉及一种车辆姿态估计方法，特别是一种基于动态车辆实例感知卷积且检测时间恒定的车辆姿态估计方法，以满足智慧交通和自动驾驶系统中利用车辆关键点获取车辆姿态的需求。

背景技术

随着人工智能、物联网等技术的迅速发展，智慧交通和自动驾驶成为了近年来的研究热点，而车辆姿态估计技术在其中扮演了重要角色，车辆姿态估计可以提供车辆的几何和运动信息，可用于车辆自动避障、快速捕捉车辆违法违章信息等任务，车辆姿态估计旨在定位出车辆的关键点位置，其面临的一个挑战是获得车辆的姿态和形状，这通常需要高精度的传感器来实现，受限于传感器较高的成本，导致车辆关键点检测技术难以大规模普及，因此，通过常规摄像头进行车辆的姿态估计具备较高的实用价值。

姿态估计任务的关键点都是通过人为设计一些具有语义信息的特征点，随着深度学习技术的发展，基于深度学习的姿态估计算法的表现优于传统的计算机视觉方法，常见的姿态估计任务有人体姿态估计、人脸姿态估计、手势姿态估计等，处理这些任务的方法通常分为两类，自上而下和自下而上两种，因此，车辆姿态估计方法也分为自上而下和自下而上两种，其中自上而下的车辆姿态估计算法使用车辆目标检测器从输入数据中获取一组边界框（每个框对应一个车辆实例），然后对每个车辆的框应用单车辆姿态估计算法以获取多车辆姿态，与自上而下的方法不同，自下而上的方法先定位所有的车辆关键点，然后进行分组后处理。

现实驾驶场景中，需要自动识别所驾驶车周围车辆的行驶状态，因此车辆姿态估计方法在实际应用过程中可以通过所驾驶车辆所搭载的摄像头拍摄周围车辆图像，然后根据对图像的识别结果确定周围车辆的行驶状态，现有的姿态估计方法主要有以下几个缺点：（1）自上而下的姿态估计方法需要对输入图像裁剪单个车辆的感兴趣区域，由于感兴趣区域单独传递，导致卷积参数不能共享，因此这种方法的推理时间受限于图片中车辆数量；（2）自下而上的姿态估计方法首先检测出所有车辆的关键点，然后使用分组后处理来获取每个车辆的整体结果，由于对关键点分组的步骤通常是启发式的，并且会涉及较多的超参数，导致处理过程非常复杂，检测时间较长。

由此可见，针对现实驾驶场景，现有的姿态估计方法检测时间受限于车辆的数量，急需更有效的方法来缩短检测时间。

发明内容

本发明的目的在于克服现有技术存在的不足，设计提供一种车辆姿态估计方法，解决现有姿态估计方法的检测时间较长的问题，并用于实际车辆姿态估计任务中，高效地检测车辆姿态。

为实现上述目的，本发明实现车辆姿态估计的具体过程为：

（1）数据集构建：收集交通监控、停车场中含有多种车辆的图像，构建车辆数据集，并在每个车辆上定义78个关键点，标注车辆的边界框，即车辆最小外接矩形，将数据集划分为训练集、验证集和测试集；

（2）主干网络卷积特征提取：先对图像的尺寸和数值范围进行初始化处理，再将处理后的图像输入到主干网络的第三阶段到第五阶段（C3-C5）中进行卷积特征提取得到特征图；

（3）特征金字塔网络特征提取：将步骤（2）得到的特征图输入特征金字塔网络提取特征得到多尺度车辆卷积特征图集合；

（4）生成车辆候选框：根据步骤（3）得到的多尺度车辆卷积特征图集合，使用车辆目标检测框分支完成目标框类别分类和位置回归的任务，其中分类为是否是车辆，位置信息为车牌的四个顶点坐标；

（5）动态关键点检测：根据步骤（4）得到的特征图集合，以条件卷积为主，构建动态关键点检测头，先对输入的特征图进行计算得出加权卷积核，再对其执行卷积操作，每个卷积核只进行一次计算，应用在不同特征图上的不同位置进行计算得出加权卷积核，每个卷积核只计算一次，应用在不同图像上的不同位置，通过输入计算卷积核参数使卷积具有动态特性；

（6）特征对齐的精细化关键点生成：使用特征金字塔中的特征图P3来生成热图，特征金字塔的P3输出通道为2，设

预测了从位置

到最近的正确标注关键点的偏移量，对于某一个关键点，如果热图上的最大值在

处，则车辆关键点在原始图像中最终坐标为

；

（7）输出结果：对于图像中的每一个车辆，输出其在图像中的坐标，通过后续处理将关键点标注在原始图像中。

作为本发明的进一步技术方案，步骤（2）所述主干网络使用ResNet-50作为特征提取网络，其中主干网络的第三阶段（C3）和第四阶段的卷积（C4）采用可变形卷积进行升级。

作为本发明的进一步技术方案，步骤（3）所述特征金字塔网络提取特征的具体过程为：特征图金字塔网络P3~P5以主干网络C3~C5的输出特征图为输入，P6和P7依次通过应用一个卷积后生成，首先所有卷积层的特征图被对齐到统一维度，然后，统一维度的特征图在FPN中通过自上而下和自下而上的路径进行融合，特征金字塔网络是针对ResNet-50里面形成的多尺度特征进行强化利用获得表达力更强包含多尺度车辆信息的多尺度车辆卷积特征图集合。

作为本发明的进一步技术方案，步骤（4）使用车辆目标检测框分支完成目标框类别分类和位置回归的任务时，将特征图上的像素视为训练样本，正确标注框中的像素被视为正样本，将其中的四个偏移量回归到正确标注边界框的四个边界；否则，像素被视为负样本。

作为本发明的进一步技术方案，步骤（5）的过程描述为：

其中Output(x)表示检测到的动态关键点，

表示卷积核，有着与标准卷积核相同的维度；

是依赖训练样本的加权参数，通过三个步骤计算与输入实例x相关的权重，计算方式如下：

，

其中GAP是全局平均池化操作，R表示全连接层，Sigmoid为激活函数，对每个实例产生权重的是一个单一的卷积层，其卷积核大小为

，该层的输出等于关键点头中权重

的个数，关键点部分有3个卷积层，其卷积核大小为

，对于图像中每个车辆，动态的生成一个关键点检测头。

与现有技术相比，本发明使用卷积神经网络生成高质量的候选框，并采用可变形卷积增强了网络聚合多尺度空间信息的能力，构建了一个高效简洁的车辆关键点检测头，能够为图像中每个车辆动态地生成一组权重，并将权重作用与特征图，并经过关键点对齐得到最终的关键点坐标，检测时间短，高效的实现车辆关键点检测，并用于实际车辆姿态估计任务中。

附图说明

图1为本发明所采用的网络结构框架示意图。

图2为本发明所述车辆姿态估计的流程框图。

图3为本发明提供的车辆关键点标注的一个示例。

图4为本发明提供的车辆关键点标注的另一个示例。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

实施例：

如图1和图2所示，本实施例提供了一种车辆姿态估计方法，通过卷积神经网络生成高质量的候选框，并采用可变形卷积增强了网络聚合多尺度空间信息的能力，具体实施包括如下步骤：

（1）数据集构建：

为了更好地实现车辆姿态估计，首先需要一个数据众多、标注详细的数据集，在一种可能的实施方式中，数据集可以是采用现有的数据集，也可以是从各类渠道收集图像并标注制作的，以本实施例公开的具体执行方案为例，通过收集交通监控、停车场监控等现实场景中含有的多种车辆的图像，构建车辆数据集，在每个车辆上定义关键点，以轿车为例，共定义78个关键点，如图3和4所示，主要定义具有很强局部纹理特征信息的点，如多选择车辆上的角点定义（车灯的4个角点、前后挡风玻璃的4个角点等），标注车辆的边界框，即车辆最小外接矩形，将数据集划分为训练集、验证集和测试集；

（2）主干网络卷积特征提取：

先对图片的尺寸和数值范围行初始化处理，然后将处理后的图像输入到主干网络（C3-C5）中进行卷积特征提取，其中主干网络使用ResNet-50作为特征提取网络。由于传统的卷积具有固定尺寸、固定形状，而车辆特征复杂，用已知的卷积去处理未知复杂的特征，具有很大的局限性，为适应复杂的车辆特征，便于后续检测，采用可变形卷积对主干网络第三阶段（C3）和第四阶段的卷积（C4）进行升级；

（3）特征金字塔网络特征提取：

以步骤（2）输出的特征图为输入，通过特征金字塔网络提取特征，特征金字塔网络如图1所示，其中，特征图金字塔网络P3~P5以主干网络C3~C5的输出特征图为输入，P6和P7依次通过应用一个卷积后生成，首先，所有卷积层的特征图被对齐到统一维度，然后，特征图在FPN中通过自上而下和自下而上的路径进行融合，其中，（P3～P5）形式上有：

（P6，P7）形式上有：

其中，

表示用于提取特征的卷积操作，

用于将特征图调整到相同分辨率的上采样或下采样操作，特征金字塔网络输出的特征图与输入图像的下采样比例分别为 8、16、32、64和128；

（4）生成车辆候选框：

根据步骤（3）得到的多尺度车辆卷积特征图集合，使用车辆目标检测框分支完成目标框类别分类和位置回归的任务，这一步将输入特征图上的像素视为训练样本，类似于语义分割。正确标注框中的像素被视为正样本，将其中的四个偏移量回归到正确标注边界框的四个边界；否则，像素被视为负样本，分类为是否是车辆，位置信息为车牌的四个顶点坐标；

（5）动态关键点检测：

根据步骤（4）得到的特征图集合，以条件卷积为主，构建动态关键点检测头，先对输入的特征图进行计算得出加权卷积核，再对其执行卷积操作，每个卷积核只进行一次计算，应用在不同特征图上的不同位置进行计算得出加权卷积核，每个卷积核只计算一次，应用在不同图像上的不同位置，通过输入计算卷积核参数使卷积具有动态特性，描述为：

其中Output(x)表示检测到的动态关键点，

表示卷积核，有着与标准卷积核相同的维度；

，

，该层的输出等于关键点头中权重

的个数，关键点部分有3个卷积层，其卷积核大小为

，较少的参数使关键点检测头变的非常紧凑；对于图像中每个车辆，网络都会动态的生成一个关键点检测头，由于条件卷积具有较强的表达能力，这使得关键点检测头十分简单且高效，无论图像中有多少车辆，模型的推理时间基本是不变的；

（6）特征对齐的精细化关键点生成：

使用特征金字塔中的特征图P3（F）来生成热图，因此热图的分辨率是输入图像分辨率的，而关键点检测需要较高的定位精度，的分辨率不足以进行关键点检测，在以往的工作中，通常采用反卷积等上采样操作，这会带来较高的计算量，因此本实施例引入一个基于回归的关键点对齐模块解决上述问题，特征金字塔的P3输出通道为2，设

预测了从位置

处，则车辆关键点在原始图像中最终坐标为

；

（7）输出结果：

对于图像中的每一个车辆，输出其在图像中的坐标，通过后处理操作，将关键点标注在原始图像中。

本文中未详细描述的网络结构和算法均为本领域已有技术。

需要注意的是，公布实施示例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种车辆姿态估计方法，其特征在于，具体过程为：

（2）主干网络卷积特征提取：先对图像的尺寸和数值范围进行初始化处理，再将处理后的图像输入到主干网络的C3-C5中进行卷积特征提取得到特征图；

预测了从位置

处，则车辆关键点在原始图像中最终坐标为

；

2.根据权利要求1所述车辆姿态估计方法，其特征在于，步骤（2）所述主干网络使用ResNet-50作为特征提取网络，其中主干网络C3和C4的卷积采用可变形卷积进行升级。

3.根据权利要求2所述车辆姿态估计方法，其特征在于，所述特征金字塔网络提取特征的具体过程为：特征图金字塔网络P3~P5以主干网络C3~C5的输出特征图为输入，P6和P7依次通过应用一个卷积后生成，首先所有卷积层的特征图被对齐到统一维度，然后，统一维度的特征图在FPN中通过自上而下和自下而上的路径进行融合，特征金字塔网络是针对ResNet-50里面形成的多尺度特征进行强化利用获得表达力更强包含多尺度车辆信息的多尺度车辆卷积特征图集合。

4.根据权利要求3所述车辆姿态估计方法，其特征在于，步骤（4）使用车辆目标检测框分支完成目标框类别分类和位置回归的任务时，将特征图上的像素视为训练样本，正确标注框中的像素被视为正样本，将其中的四个偏移量回归到正确标注边界框的四个边界；否则，像素被视为负样本。

5.根据权利要求4所述车辆姿态估计方法，其特征在于，步骤（5）的过程描述为：

其中Output(x)表示检测到的动态关键点，

表示卷积核，有着与标准卷积核相同的维度；

，

，该层的输出等于关键点头中权重

的个数，关键点部分有3个卷积层，其卷积核大小为

，对于图像中每个车辆，动态的生成一个关键点检测头。