CN115223114A

CN115223114A - 一种基于双向融合特征金字塔的端到端车辆姿态估计方法

Info

Publication number: CN115223114A
Application number: CN202211125206.8A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-10-21

Abstract

本发明属于车辆姿态估计技术领域，涉及一种基于双向融合特征金字塔的端到端车辆姿态估计方法，通过双向跨尺度连接和加权特征融合实现高效的特征提取，再设计一种特征校对模块，在很大程度上克服了卷积特征与预测关键点不一致的问题，显著提高了方法的性能，最后以车辆关键点的最小外接矩形为边界框进行训练，将目标检测的思路应用到车辆姿态估计中，在缩短检测时间的同时提高了检测精度。

Description

一种基于双向融合特征金字塔的端到端车辆姿态估计方法

技术领域

本发明属于车辆姿态估计技术领域，涉及一种基于双向融合特征金字塔的端到端车辆姿态估计方法。

背景技术

车辆姿态估计旨在从图像或视频中定位出车辆的关键点，该任务可作为其他有关车辆的计算机视觉任务的基础，近年来，姿态估计受到了越来越多的关注，并被应用到各种现实场景，现有的基于深度学习的姿态估计方法克服了手工提取特征的弊端，具有强大的特征学习能力，但是如遮挡、训练数据不足等仍制约着方法检测精度的提升，且复杂的网络结构会导致检测速度过慢。

车辆姿态估计方法分为自上而下和自下而上两种，其中自上而下的车辆姿态估计方法使用车辆目标检测器从输入数据中获取一组边界框（每个框对应一个车辆实例），然后对每个车辆的框应用单车辆姿态估计方法以获取多车辆姿态；与自伤而下的方法不同，自下而上的方法先定位所有的车辆关键点，然后进行分组后处理。

目前，无锚框目标检测方法的发展为车辆姿态估计任务提供了一个新的思路，将车辆中的关键点视为目标，利用目标检测的方法实现车辆姿态估计，即车辆关键点检测，无锚框检测方法性能优于以往基于锚框的检测方法，该方法直接回归目标边界框的两个角关键点，而不使用预定义的锚框，沿着无锚框目标检测方法的思路，车辆姿态估计任务可将关键点视为一个具有多个角的特殊边界框，因此在目标检测网络中增加相关模块可以实现该方案。无锚框目标检测方法可以实现端到端的车辆姿态估计，即直接将原始输入图像映射到图像中车辆的关键点，而且可以避免自上而下和自下而上方法的缺点，既不需要复杂的分组后处理，也不需要提取感兴趣区域操作，该方法将目标检测与关键点检测任务相统一，即可以用相同的方法来解决两个问题。

利用目标检测实现车辆姿态估计的方法看似简单，实现却十分复杂，对于常规的目标检测任务，从单一的特征向量可以回归到边界框的两个对角处的关键点，但是车辆姿态估计方法需要从单个特征向量来回归车辆中所有的关键点，且需要单个向量来精确地保存关键点所有的信息，比如关键点的精确坐标位置，这给该方法设计带来挑战，而且现有姿态估计方法的检测时间较长，检测时间与检测精度之间难以取得平衡，因此，针对现实驾驶场景，需要一种高效的车辆姿态估计方法。

发明内容

本发明的目的在于克服现有技术存在的缺点，设计提供一种基于双向融合特征金字塔的端到端车辆姿态估计方法，用于实际车辆姿态估计任务中，高效地检测车辆姿态。

为实现上述目的，本发明建立了一个双向融合特征金字塔网络，通过双向跨尺度连接和加权特征融合实现高效的特征提取，再设计一种特征校对模块，在很大程度上克服了卷积特征与预测关键点不一致的问题，显著提高了方法的性能，最后以车辆关键点的最小外接矩形为边界框进行训练，将目标检测的思路应用到车辆姿态估计中，具体包括如下步骤：

（1）数据集构建：选取开源数据集中的车辆图像，并收集交通监控、停车场现实场景中含有多种车辆的图像，构建车辆数据集，并将车辆数据集划分为训练集、验证集和测试集，其中每个车辆上定义78个关键点，并标注车辆的边界框与类别，即车辆最小外接矩形；

（2）主干网络特征提取：先对图像的尺寸和数值范围行初始化处理，再将处理后的图像输入到ResNet-50主干网络中进行卷积特征提取得到特征图；

（3）双向融合特征金字塔网络特征提取： ResNet-50主干网络后添加双向融合特征金字塔网络，将步骤（2）得到的特征图输入双向融合特征金字塔网络进一步提取特征，得到多尺度车辆卷积特征图集合；

（4）生成车辆候选框：根据步骤（3）得到的多尺度车辆卷积特征图集合，使用车辆目标检测框分支完成目标框类别分类和位置回归的任务生成车辆候选框，其中分类为是否是车辆，位置信息为车牌的四个顶点坐标；

（5）关键点检测：将步骤（3）得到的多尺度车辆卷积特征图输入特征校对模块，使用特征校对模块使卷积特征与预测关键点进行校对，输出关键点；

（6）输出结果：对图像中的每一个车辆，输出其在图像中的坐标，通过后处理操作，将步骤（5）得到的关键点标注在原始图像中。

作为本发明的进一步技术方案，步骤（3）所述双向融合特征金字塔网络先将所有卷积层的特征图被对齐到同一维度，双向融合特征金字塔中的特征图P3、P4、P5以主干网络的输出特征图为输入，P6和P7由P5依次通过一个卷积层后生成，最终融合的特征图为：

其他特征图与M6、N6原理相同，其中，

表示卷积操作，

用于将特征图调整到相同分辨率的操作。

作为本发明的进一步技术方案，步骤（5）所述特征校对模块由对齐模块

和预测模块

组成，设输入的特征图

，其中H为图像高度，W为图像宽度，特征校对模块对特征图F进行处理，其中对齐模块包括进行特征定位的定位器和进行特征采样的采样器，表示为：

其中

，由定位器产生，用于预测车辆第i个关键点的特征向量的采样位置；

是采样的特征向量，设F上的一个关键点的位置为（a,b），则该位置被编码为相对于（a,b）的坐标；然后预测模块

将对齐模块

的输出作为输入，预测关键点的最终坐标，预测模块包含K个卷积层，K为一个车辆实例的关键点数量，每个卷积层预测第i个关键点相对于

采样位置的坐标，即

，最后，第i个的坐标为两组坐标之和，为

，表示为：

，

最终的坐标根据特征图的下采样比例调整，得到关键点。

与现有技术相比，本发明避免了自下而上方法中复杂的分组后处理或自上而下方法中边界框检测和提取感兴趣区域操作，先以无锚框检测方法为基准，设计了一个双向融合特征金字塔网络，实现了高效的特征提取，采用的特征校对模块在很大程度上克服了卷积特征与预测关键点不一致的问题，显著提高了方法的性能，平衡了检测时间与检测精度，在缩短检测时间的同时提高了检测精度。

附图说明

图1为本发明所述基于双向融合特征金字塔的端到端车辆姿态估计网络结构框架示意图。

图2为本发明所述双向融合特征金字塔网络示意图。

图3为本发明所述特征校对模块示意图。

图4为本发明所述车辆姿态估计的工作流程框图。

图5为本发明所述车辆关键点检测结果示例。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

实施例：

本实施例通过双向跨尺度连接和加权特征融合，实现了高效的特征提取，以车辆关键点的最小外接矩形为边界框进行训练，将目标检测的思路应用到车辆姿态估计中，能够实现高效的车辆关键点检测，采用如图1所示的基于双向融合特征金字塔的端到端车辆姿态估计网络以及如图4所示的工作流程框图，具体实施包括如下步骤：

（1）数据集构建：

选取开源数据集中的车辆图像，并收集交通监控、停车场等现实场景的含有多种车辆的图像，构建车辆数据集，在每个车辆上定义78个关键点，主要定义具有很强局部纹理特征信息的点，如多选择车辆上的角点定义（车灯的4个角点、前后挡风玻璃的4个角点等）。并标注车辆的边界框，即车辆最小外接矩形，最后将数据集划分为训练集、验证集和测试集；

（2）主干网络特征提取：

先对图片的尺寸和数值范围行初始化处理，再将处理后的图像输入到ResNet-50主干网络中进行卷积特征提取得到特征图；

（3）双向融合特征金字塔网络特征提取：

为检测较小的关键点目标，需要将高低层特征高效融合，于是在主干网络ResNet-50之后添加如图2所示的双向融合特征金字塔网络，实现双向跨尺度连接，先将所有卷积层的特征图被对齐到同一维度，特征图在双向融合特征金字塔中通过图2所示的路径进行融合，图2中的双向融合特征金字塔中的特征图P3、P4、P5以主干网络的输出特征图为输入，P6和P7由P5依次通过一个卷积层后生成，最终融合的特征图为：

其他特征图与M6、N6原理相同，其中，

表示卷积操作，

用于将特征图调整到相同分辨率的操作，本实施例在网络中使用深度可分离卷积进行特征融合，使用批量归一化和激活函数，提升计算效率，该步骤将步骤（2）得到的特征图输入双向融合特征金字塔网络，得到多尺度车辆卷积特征图集合，跨尺度连接减少了单边输入节点，同一层次的节点增加一条边，保证计算成本基本维持不变的同时进行更多的特征融合，并能进行自上而下连接和自下而上连接；

（4）生成车辆候选框：

根据步骤（3）得到的多尺度车辆卷积特征图集合，使用车辆目标检测框分支完成目标框类别分类和位置回归的任务，这一步将输入特征图上的像素视为训练样本，类似于语义分割，正确标注框中的像素被视为正样本，将其中的四个偏移量回归到正确标注边界框的四个边界；否则，像素被视为负样本，其中分类为是否是车辆，位置信息为车牌的四个顶点坐标；

（5）关键点检测：

将步骤（3）得到的多尺度车辆卷积特征图输入如图3所示的特征校对模块，使用一个特征校对模块使卷积特征与预测关键点进行校对得到关键点，特征校对模块由对齐模块

和预测模块

组成，设输入的特征图

其中

将对齐模块

采样位置的坐标，即

，最后，第i个的坐标为两组坐标之和，为

，表示为：

，

最终的坐标根据特征图的下采样比例调整，得到关键点；

其中定位器和采样器需要相同级别的特征图作为输入，而定位器和预测模块需要不同级别的特征图，定位器预测了车辆所有关键点的模糊位置，因此需要低分辨率的高水平特征，而预测器需要针对局部区域作出精准的预测，因此需要高分辨率的低水平特征和较小的感受野；

（6）输出结果：

对于图像中的每一个车辆，输出其在图像中的坐标，通过后处理操作，将关键点标注在原始图像中，如图5所示。

本文中未详细说明的网络结构和算法均为本领域通用技术。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施示例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。