CN115147806A

CN115147806A - 一种基于关键点检测车辆伪3d边界框的方法

Info

Publication number: CN115147806A
Application number: CN202210555090.5A
Authority: CN
Inventors: 徐昀; 谢钱昆; 王芬芬
Original assignee: Zhejiang Zero Run Technology Co Ltd
Current assignee: Zhejiang Zero Run Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-10-04

Abstract

本发明公开了一种基于关键点检测车辆伪3d边界框的方法，包括以下步骤：输入图片；目标检测提取车辆ROI；使用亚像素坐标编码训练多检测头分支；通过自注意力在线蒸馏选择最佳检测头分支；输出关键点坐标；获取车辆伪3d的类别信息；利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。上述技术方案模型结构简单，易于训练，对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力，最后对两个维度进行融合，能够捕捉独立分支之间的全局信息。

Description

一种基于关键点检测车辆伪3d边界框的方法

技术领域

本发明涉及智能驾驶技术领域，尤其涉及一种基于关键点检测车辆伪3d边界框的方法。

背景技术

关键点检测是目标检测的一个重要分支，广泛应用于姿态估计，人脸识别，自动驾驶等领域。随着深度学习的不断发展，目前主流的关键点检测技术分为两种形式，一种是基于热力图的关键点检测；一种是基于回归的关键点检测。

基于热力图的方法因为其卓越的性能在关键点检测中处于主导地位，该方法为每个关键点预测一个热力分布图，在热力图上利用局部信息在空间维度上实现特征匹配，预测各个点的概率分布，然后使用argmax获取极值点，预测的精度一般高于直接回归坐标值的方法。缺点是为了保持精度需要上采样操作(如转置卷积)以及一些额外的后处理(如DARK(分布感知坐标表示))，增加了网络计算量和显存需求，且随着输入分辨率的降低而导致精度急剧下降。

基于回归的方法利用神经网络直接回归关键点在原图中的坐标，可以实现网络的端到端训练，无需后处理，前向速度快。但是该方法严重依赖输入的空间分布，容易受到遮挡、截断等模糊场景下的噪声干扰，空间泛化能力弱，网络难以拟合，检测精度通常不如基于热力图的方法。

有资料显示，目前主流的关键点检测方法以热力图辅助回归的方式为主。因为人为标注的关键点坐标很难精准的代表真实目标位置，通常采用高斯核的方式平滑标签，将目标点区域平滑展开为二维高斯分布，为每个热力图上的关键点区域分配一个概率值表示该点作为真实目标点的置信度，目标点的概率值最大，一般设为1。Centernet输入图片提取特征后下采样生成原始1/4的热力图，然后对热力图进行分类和回归，最后将坐标值转换到原始图上，但是该方法精度受特征图分辨率大小的影响，在下采样过程中会产生量化误差，无法直接输出坐标值；DARK提出一种新的分布感知的关键点坐标表示方法，将热力图的分布信息近似成泰勒展开的分布，生成无偏的热力图来减少特征图在下采样过程中带来的坐标量化误差，但是也增加了额外的后处理过程。

中国专利文献CN107671414A公开了一种“伪3D边界框构建的方法、装置及电子设备”。通过获取交通摄像头采集的交通场景的视频数据，并从视频数据中提取目标车辆对应的车辆图像，基于所采集的车辆图像中的车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。上述方案需要回归多个2d检测框，包含冗余的特征信息，且需对多个框重合的点进行筛选，增加了网络的复杂度。

发明内容

本发明主要解决原有的技术方案基于热力图下采样过程中带来的量化误差，网络的复杂度高的技术问题，提供一种基于关键点检测车辆伪3d边界框的方法，通过将回归坐标点的形式简化为简单的分类任务，结合了热力图空间信息的优点，使用亚像素坐标去除下采样过程中的量化误差，使用soft-argmax直接输出关键点坐标值，无需保持高分辨率的热力图，模型结构简单，易于训练，对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力，最后对两个维度进行融合，能够捕捉独立分支之间的全局信息。

本发明的上述技术问题主要是通过下述技术方案得以解决的：本发明包括以下步骤：

S1输入图片；

S2目标检测提取车辆ROI；

S3使用亚像素坐标编码训练多检测头分支；

S4通过自注意力在线蒸馏选择最佳检测头分支；

S5输出关键点坐标；

S6获取车辆伪3d的类别信息；

S7利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。

作为优选，所述的步骤S3具体包括：

S3.1首先对原始图上的关键点P(x,y)坐标取整为P(round(x),round(y))，然后下采样制作成热力图标签；

S3.2训练过程中将热力图转换到一维空间，通过一层全连接层得到各点预测的概率分布，利用soft-argmax计算点P在当前特征图上单元点的位置信息。

作为优选，所述的步骤S3.1具体包括，先假设P点坐标，对关键点P坐标值进行取整，点P经k倍下采样后在热力图中的坐标为(Hx,Hy)，将该位置标签值设为1，其他背景类设为0。

以原图大小为12×12，k为4为例，假设P点坐标为(6.2，7.3)，对关键点P坐标值取整为(6，7)，点P经k倍下采样后在热力图中的坐标为(1，1)，将该位置标签值设为1，其他背景类设为0。

作为优选，所述的步骤S3.2将二维热力图转换为到一维空间，利用全连接层对各点进行分类，与制作的标签计算损失值，得到各点代表关键点的概率值P_I(i＝0,1,2…)，使用soft-argmax的方法计算关键点P在一维向量中的位置C_p为：

其中j代表的意义与i相同，β为扩大因子，用于提高接近目标点的准确度，再将得到的一维坐标转换到热力图上的二维坐标点(H_x，H_y),

其中W,H分别表示热力图的宽和高。

作为优选，所述的步骤S3.1利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点，然后采用分类的方法得到亚像素坐标值以解决制作热力图标签时原图坐标缩小k倍后非整数的问题，亚像素标签制作过程具体包括将热力图中单元点在亚像素级别上扩大k倍，利用卷积将该点映射到k×k的特征图，每个热力图单元点之间看作k个亚像素点大小，即映射到原始图大小级别，热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(S_x′，S_y′)。

由于制作热力图标签时存在坐标量化的过程，即原图坐标缩小k倍后非整数，本发明利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点，然后依然采用分类的方法得到亚像素坐标值，本例中：

S_x′＝6％4＝2

S_y′＝7％4＝3。

作为优选，所述的亚像素坐标下的真实标签坐标(S_x′，S_y′)获取后，与计算热力图坐标的方式相同，网络再次经过一个全连接层对亚像素坐标点进行分类，同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(S_x，S_y)，最终输出预测的关键点P(P_x,P_y)在原始图中的坐标值为：

P_x＝H_x×k+S_x

P_y＝H_y×k+S_y

关键点检测头的整个过程完全可微，只在原始图制作标签的时取整一次，误差为原始图单个像素级别大小，远小于多次下采样的量化误差级别，或者通过添加一个分支用于回归取整的误差大小。

作为优选，所述的步骤S4具体包括，首先将关键点检测头部扩展为多个分支，将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力，然后将其融合得到最终的集成特征，使用集成后的模型与各分支分别计算坐标损失以实现蒸馏的过程，最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。由于检测头部分结构简单，利用蒸馏的方式增强检测头网络部分的性能。

作为优选，所述的步骤S6车辆伪3d的分类为普通的分类任务，根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。

本发明的有益效果是：通过将回归坐标点的形式简化为简单的分类任务，结合了热力图空间信息的优点，使用亚像素坐标去除下采样过程中的量化误差，使用soft-argmax直接输出关键点坐标值，无需保持高分辨率的热力图，模型结构简单，易于训练，对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力，最后对两个维度进行融合，能够捕捉独立分支之间的全局信息。

附图说明

图1是本发明的一种流程图。

图2是本发明的一种soft-argmax的计算过程图。

图3是本发明的一种亚像素标签示意图。

图4是本发明的一种自注意力在线知识蒸馏示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种基于关键点检测车辆伪3d边界框的方法，如图1所示，首先输入图片经过一个2d检测网络得到图像中车辆的感兴趣区域(ROI)，然后对ROI部分进行关键点检测和车辆伪3d分类，最好利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。

检测头同热力图方法一样通过卷积神经网络将ROI下采样生成热力图，热力图大小为原始ROI的1/k，不同的是将检测任务转换为多个分类任务进行监督学习，利用亚像素坐标思想对坐标重新编码去除下采样过程中的量化误差，而且网络可以直接输出坐标点信息。首先对原始图上的关键点P(x,y)坐标取整为P(round(x),round(y))，然后下采样制作成热力图标签；训练过程中将热力图转换到一维空间，通过一层全连接层得到各点预测的概率分布，利用soft-argmax计算点P在当前特征图上单元点的位置信息；该过程如图2所示，以原图大小为12×12，k为4为例，假设P点坐标为(6.2，7.3)，对关键点P坐标值取整为(6，7)，点P经k倍下采样后在热力图中的坐标为(1，1)，将该位置标签值设为1，其他背景类设为0。网络预测过程中将二维热力图转换为到一维空间，利用全连接层对各点进行分类，与制作的标签计算损失值，得到各点代表关键点的概率值P_I(i＝0,1,2…)，为了使网络在获取坐标值的过程可微，使用soft-argmax的方法计算关键点P在一维向量中的位置C_p为：

其中j代表的意义与i相同，β为扩大因子，用于提高接近目标点的准确度。再将得到的一维坐标转换到热力图上的二维坐标点(H_x，H_y),

其中W,H分别表示热力图的宽和高。

由于制作热力图标签时存在坐标量化的过程，即原图坐标缩小k倍后非整数。本发明利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点，然后依然采用分类的方法得到亚像素坐标值。亚像素标签制作过程如图3所示，将热力图中单元点在亚像素级别上扩大k倍，利用卷积将该点映射到k×k的特征图，每个热力图单元点之间看作k个亚像素点大小，即映射到原始图大小级别，热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(S_x′，S_y′),本例中：

S_x′＝6％4＝2

S_y′＝7％4＝3

与计算热力图坐标的方式相同，网络再次经过一个全连接层对亚像素坐标点进行分类，同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(S_x，S_y)，最终输出预测的关键点P(P_x,P_y)在原始图中的坐标值为：

P_x＝H_x×k+S_x

P_y＝H_y×k+S_y

关键点检测头的整个过程完全可微，只在原始图制作标签的时取整一次，误差仅为原始图单个像素级别大小，远小于多次下采样的量化误差级别。也可选择通过添加一个分支用于回归取整的误差大小。

由于检测头部分结构简单，利用蒸馏的方式增强检测头网络部分的性能。提出的自注意力在线蒸馏方法首先将关键点检测头部扩展为多个分支，如图4所示，将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力，然后将其融合得到最终的集成特征，蒸馏的过程是使用集成后的模型与各分支分别计算坐标损失，最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。

车辆伪3d的分类为普通的分类任务，根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了ROI、亚像素坐标编码等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于关键点检测车辆伪3d边界框的方法，其特征在于，包括以下步骤：

S1输入图片；

S2目标检测提取车辆ROI；

S3使用亚像素坐标编码训练多检测头分支；

S4通过自注意力在线蒸馏选择最佳检测头分支；

S5输出关键点坐标；

S6获取车辆伪3d的类别信息；

2.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S3具体包括：

3.根据权利要求2所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S3.1具体包括，先假设P点坐标，对关键点P坐标值进行取整，点P经k倍下采样后在热力图中的坐标为(Hx,Hy)，将该位置标签值设为1，其他背景类设为0。

4.根据权利要求2所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S3.2将二维热力图转换为到一维空间，利用全连接层对各点进行分类，与制作的标签计算损失值，得到各点代表关键点的概率值P_I(i＝0,1,2…)，使用soft-argmax的方法计算关键点P在一维向量中的位置C_p为：

其中W,H分别表示热力图的宽和高。

5.根据权利要求3所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S3.1利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点，然后采用分类的方法得到亚像素坐标值以解决制作热力图标签时原图坐标缩小k倍后非整数的问题，亚像素标签制作过程具体包括将热力图中单元点在亚像素级别上扩大k倍，利用卷积将该点映射到k×k的特征图，每个热力图单元点之间看作k个亚像素点大小，即映射到原始图大小级别，热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(S_x′，S_y′)。

6.根据权利要求5所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述亚像素坐标下的真实标签坐标(S_x′，S_y′)获取后，与计算热力图坐标的方式相同，网络再次经过一个全连接层对亚像素坐标点进行分类，同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(S_x，S_y)，最终输出预测的关键点P(P_x,P_y)在原始图中的坐标值为：

P_x＝H_x×k+S_x

P_y＝H_y×k+S_y

7.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S4具体包括，首先将关键点检测头部扩展为多个分支，将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力，然后将其融合得到最终的集成特征，使用集成后的模型与各分支分别计算坐标损失以实现蒸馏的过程，最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。

8.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法，其特征在于，所述步骤S6车辆伪3d的分类为普通的分类任务，根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。