CN114219901B

CN114219901B - 基于投影一致性和孪生Transformer的三维底盘投影方法

Info

Publication number: CN114219901B
Application number: CN202210159431.7A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 翟贵乾
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-10
Anticipated expiration: 2042-02-22
Also published as: CN114219901A

Abstract

本发明公开了基于投影一致性和孪生Transformer的三维底盘投影方法，涉及目标检测技术领域。本发明包括如下步骤，S1构建和标注数据集；S2使用相似的一对视频片段输入孪生Transformer，提取序列特征，预测车辆停车斜视坐标；S3基于匈牙利算法将预测的斜视坐标

与真实斜视坐标

匹配，计算匈牙利损失；S4生成二维俯瞰画面；S5重建生成斜视拍摄画面；S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面，计算投影一致性损失。本发明提出基于投影一致性孪生Transformer方法，将高位相机的监控画面中车辆位置投影到俯瞰视角下的二维空间中，以适应不同场景下的不同需求。

Description

基于投影一致性和孪生Transformer的三维底盘投影方法

技术领域

本发明属于目标检测技术领域，涉及基于投影一致性和孪生Transformer的三维底盘投影方法。

背景技术

由于高位相机存在俯角和倾斜角的问题，导致停车漏报、误报等一系列问题的发生，造成智能停车行业管理难、运营难。传统停车位置判断大都基于二维深度地盘投影的方法：基于卷积神经网络对车辆二维位置进行预测，将预测的检测框和停车位的位置进行重叠比例判断，当重叠比例超过一定阈值时，判断车辆停靠在某个停车位上。然而在实际应用中，由于高位相机的安装位置、俯角、倾斜角等因素差距较大，无法使用一个统一的模型灵活的适配各个应用场景。针对特定场景下的投影算法和单独配置参数虽然可以在一定程度上提高算法精度，但增加了额外的人工成本和时间成本。

发明内容

本发明为了弥补现有技术的不足，提供了基于投影一致性和孪生Transformer的三维底盘投影方法，本发明将高位相机的监控画面中斜视车辆位置投影到俯瞰视角，在三维空间内完成二维空间的转换；利用俯瞰坐标这样的强监督信号辅助训练，本发明得以适应不同场景下的不同需求，提高底盘投影的精准度。本发明是通过如下技术方案实现的：本发明提供了基于投影一致性和孪生Transformer的三维底盘投影方法，包括如下步骤：

S1构建和标注数据集，选取若干不同高位相机拍摄的视频片段构建视频集，若干视频集构建成数据集，对数据集进行数据标注，标记车辆的斜视坐标，额外构建一个二维俯瞰画面片段，标记车辆的俯瞰坐标；

S2选取同一个视频集的两个来自不同高位相机的相似视频片段输入孪生Transformer，提取序列特征，预测车辆停车斜视坐标；

S3基于匈牙利算法将预测的斜视坐标

与真实斜视坐标

匹配，计算匈牙利损失；

S4基于孪生Transformer提取的特征，生成二维俯瞰画面；

S5基于孪生Transformer提取的特征，重建生成斜视拍摄画面；

S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面，计算投影一致性损失。

本发明的有益效果是：

本发明提出了一种基于投影一致性和孪生Transformer的三维底盘投影方法，从三维空间的视角来学习车辆位置在不同空间视图上的变换。不同高位相机因为安装位置不同有不同的拍摄角度，可视为不同的斜视空间视图。通过不同斜视空间视图和俯瞰空间视图之间的迁移变换，可以学习到车辆在三维空间视图上的与拍摄视角无关的位置特征信息，进而可以得到三维空间内任意角度的真实坐标（即不同高位相机拍摄角度下的斜视坐标和俯瞰坐标）。

本发明使用孪生Transformer学习成对数据之间潜在俯瞰特征，从特征的角度学习不同高位相机之间的几何特征差异，从而学习到一个与拍摄视角无关的特征信息。基于投影一致性损失将该特征信息还原到不同空间视角（斜视空间视图和俯瞰空间视图），来保证在不同空间视图上迁移过程的信息损耗最小，从而保留更多的有效信息。

由于不同高位相机拍摄的画面具有相似性，其相似性表现在将监控画面投影到俯瞰视角时，车辆的运动轨迹在三维空间内是一致的，基于孪生Transformer的设计就是基于二者的相似性寻找一个潜在的俯瞰视觉空间。基于投影一致性来优化增强这个过程。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的方法流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

附图1为本发明的基于投影一致性和孪生Transformer的三维底盘投影方法的具体实施例。该实施例包括如下步骤，

S1构建和标注数据集。选取若干不同高位相机拍摄的视频片段构建视频集，若干视频集构建成数据集，对于每个视频集，由不同高位相机在同一时间，同一车库拍摄的视频片段构成，每个片段中都有若干斜视拍摄画面。规定选取的每个视频片段中必须出现目标车辆，即要停车的车辆，而目标车辆在车库中的停车轨迹是一致的，所以每个视频集中的每两个视频片段都是相似片段。此处的相似指在三维空间内车辆的行车轨迹相同，在二维斜视空间内，不同高位相机拍摄画面中的车辆行车轨迹相似。

对构建的数据集进行人工标注，对于一个车辆的停车轨迹，在相似片段中标记车辆的斜视坐标，额外构建一个二维俯瞰画面片段，标记俯瞰坐标；由于同一时间在车库中有多辆车进行停车，所以在一个画面中可能出现M个车辆，每一个车辆的停车轨迹作为一个实例。

步骤S1中，基于大量真实的不同高位相机拍摄的车辆停车画面，以一个车辆停车的所有画面为单位，对于同一高位相机拍摄的监控画面，同一车辆从进入监控画面起至停放不动，均匀的取30个画面作为一个单元，即一个视频片段，取若干不同高位相机拍摄的视频片段构建视频集；对于每个视频集，生成30个对应停车位置的二维俯瞰画面，车辆所在位置的连接矩形是白色，背景是黑色。

S2使用相似的一对视频片段输入孪生Transformer，提取序列特征，预测车辆停车斜视坐标。由于不同高位相机拍摄的画面具有相似性，其相似性表现在将监控画面投影到俯瞰视角时，车辆的运动轨迹在三维空间内是一致的。预测N个车辆停车候选斜视坐标i,其中N>M，第i个候选斜视坐标表示为

,其中，i={1,…,N},

表示第i个候选坐标的预测实例类别，即判断为哪辆车进行停车，

表示第i个候选坐标的预测斜视坐标框，该框表示为一个向量[cx,cy,cl,ct]，包括目标框中心点坐标值（cx,cy），中心点距离目标框左侧边界的距离cl，中心点距离目标框上侧边界的距离ct。

对于步骤S2，每次选取同一个视频集的两个来自不同高位相机的相似视频片段作为网络的输入，具体的，两个视频片段分别经过在ImageNet数据集上预训练过的ResNet101网络提取特征，即每个视频片段的30个画面提取30个高维视觉特征，将每个特征拉伸成一维向量，将30个一维向量拼接，组成尺寸大小为30*N的序列特征。

孪生Transformer模型由两个标准的Transformer模型组成，二者结构相同，权重共享；每个Transformer模型输出一个大小为30*N的序列特征，沿拼接方向划分成30个高维视觉再编码特征，每个再编码特征是一个一维向量；将一维向量重塑成高维视觉特征大小，经过一个前馈神经网络F1预测得到斜视坐标；经过孪生Transformer，每个视频片段中的每一个监控画面都可以得到预测的车辆斜视坐标；斜视坐标变量经过一个与F1结构相同的前馈神经网络F2，得到预测的实例类别。

S3基于匈牙利算法将预测的斜视坐标

与真实斜视坐标

匹配，计算匈牙利损失。将N个预测的车辆停车候选斜视坐标和M个车辆停车真实斜视坐标进行匹配，可视为一个二分图匹配问题，计算匈牙利损失；

其中，对于第

个真实斜视坐标，

表示该预测的类别的损失值，使用IOU损失计算坐标框之间的损失；在实际计算中，需要构造N至M个空实例；计算匈牙利损失时，只计算预测为真实实例类别的预测斜视坐标

和真实斜视坐标

的匈牙利损失。

匈牙利算法的时间复杂度是

,其中N是实例的个数；由于在实际算法中N取值为5，所以使用匈牙利算法可以加快模型的收敛速度。

S4基于孪生Transformer提取的特征，生成二维俯瞰画面。

对于每个视频片段，基于30个高维视觉再编码特征，经过一个解码器，预测得到二维俯瞰画面；具体的，所述解码器由4个卷积层组成，分别是Conv_1，Conv_2，Conv_3，Conv_4，卷积核都是（3，3），步长分别是（1,1），（2,2），（2,2），（2,2）；解码器输出视频监控画面的热力图，经过全连接条件随机场层后预测得到二维俯瞰画面。

S5基于孪生Transformer提取的特征，重建生成斜视拍摄画面。

步骤S6中，对于每个视频片段的再编码特征，经过一个解码器结构，得到预测的二维斜视画面；具体的，解码器结构与步骤S4中解码器结构相同，但不共享权值。

步骤S6中计算投影一致性损失，

其中，

表示生成的二维俯瞰画面，

表示数据集构建的二维俯瞰画面；p表示输入的相似片段数量，T表示一个相似片段的斜视拍摄画面数量，

表示重建生成的第i个相似片段中第j个斜视拍摄画面，

表示第i个相似片段中第j个斜视拍摄画面。

最小化二者的平方误差，确保能够根据使用孪生Transformer模型提取的与拍摄视角无关的特征能够还原输入片段和俯瞰画面，保证在该过程中没有损失重要的特征信息且删除了与拍摄视角有关的干扰因素。

由于此处的二维俯瞰画面是二值图像，只有车辆所在处是白色，其余背景均是黑色，所以不需要额外预测位置框，仅需要计算画面的平方误差即可。

步骤S1-S6为本发明的训练过程；在实际应用中，选取一段视频片段，经过孪生Transformer模型得到与拍摄视角无关的特征，在经过F1和F2 预测的车辆斜视位置和相应的实例类别。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于，包括如下步骤：

S3基于匈牙利算法将预测的斜视坐标

与真实斜视坐标

匹配，计算匈牙利损失；具体操作为，将N个预测的车辆停车候选斜视坐标和M个车辆停车真实斜视坐标进行匹配，可视为一个二分图匹配问题，计算匈牙利损失，

，其中，i表示车辆停车候选斜视坐标，

表示第i个候选坐标的预测实例类别，对于第

个真实斜视坐标，

表示该预测的类别的损失值，使用iou损失计算坐标框之间的损失，

表示第i个候选坐标的预测斜视坐标框；在实际计算中，需要构造N至M个空实例；计算匈牙利损失时，只计算预测为真实实例类别的预测斜视坐标

和真实斜视坐标

的匈牙利损失；

S4基于孪生Transformer提取的特征，生成二维俯瞰画面；

S5基于孪生Transformer提取的特征，重建生成斜视拍摄画面；

S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面，计算投影一致性损失，

，其中，

表示生成的二维俯瞰画面，

表示重建生成的第i个相似片段中第j个斜视拍摄画面，

表示第i个相似片段中第j个斜视拍摄画面。

2.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于：步骤S1中，基于大量真实的不同高位相机拍摄的车辆停车画面，以一个车辆停车的所有画面为单位，对于同一高位相机拍摄的监控画面，同一车辆从进入监控画面起至停放不动，均匀的取30个画面作为一个单元，即一个视频片段，取若干不同高位相机拍摄的视频片段构建视频集；对于每个视频集，生成30个对应停车位置的二维俯瞰画面，车辆所在位置的连接矩形是白色，背景是黑色。

3.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于：对于步骤S2，每次选取同一个视频集的两个来自不同高位相机的相似视频片段作为网络的输入，具体的，两个视频片段分别经过在ImageNet数据集上预训练过的ResNet101网络提取特征，即每个视频片段的30个画面提取30个高维视觉特征，将每个特征拉伸成一维向量，将30个一维向量拼接，组成尺寸大小为30*N的序列特征。

4.根据权利要求3所述的基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于：孪生Transformer模型由两个标准的Transformer模型组成，二者结构相同，权重共享；每个Transformer模型输出一个大小为30*N的序列特征，沿拼接方向划分成30个高维视觉再编码特征，每个再编码特征是一个一维向量；将一维向量重塑成高维视觉特征大小，经过一个前馈神经网络F1预测得到斜视坐标；经过孪生Transformer，每个视频片段中的每一个监控画面都可以得到预测的车辆斜视坐标；斜视坐标变量经过一个与F1结构相同的前馈神经网络F2，得到预测的实例类别。

5.根据权利要求4所述的基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于：对于每个视频片段，基于30个高维视觉再编码特征，经过一个解码器，预测得到二维俯瞰画面；具体的，所述解码器由4个卷积层组成，分别是Conv_1，Conv_2，Conv_3，Conv_4，卷积核都是（3，3），步长分别是（1,1），（2,2），（2,2），（2,2）；解码器输出视频监控画面的热力图，经过全连接条件随机场层后预测得到二维俯瞰画面。

6.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法，其特征在于：步骤S6中，对于每个视频片段的再编码特征，经过一个解码器结构，得到预测的二维斜视画面；具体的，解码器结构与步骤S4中解码器结构相同，但不共享权值。