CN114219901B - 基于投影一致性和孪生Transformer的三维底盘投影方法 - Google Patents

基于投影一致性和孪生Transformer的三维底盘投影方法 Download PDF

Info

Publication number
CN114219901B
CN114219901B CN202210159431.7A CN202210159431A CN114219901B CN 114219901 B CN114219901 B CN 114219901B CN 202210159431 A CN202210159431 A CN 202210159431A CN 114219901 B CN114219901 B CN 114219901B
Authority
CN
China
Prior art keywords
dimensional
squint
twin
video
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210159431.7A
Other languages
English (en)
Other versions
CN114219901A (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202210159431.7A priority Critical patent/CN114219901B/zh
Publication of CN114219901A publication Critical patent/CN114219901A/zh
Application granted granted Critical
Publication of CN114219901B publication Critical patent/CN114219901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Abstract

本发明公开了基于投影一致性和孪生Transformer的三维底盘投影方法,涉及目标检测技术领域。本发明包括如下步骤,S1构建和标注数据集;S2使用相似的一对视频片段输入孪生Transformer,提取序列特征,预测车辆停车斜视坐标;S3基于匈牙利算法将预测的斜视坐标
Figure 743889DEST_PATH_IMAGE002
与真实斜视坐标
Figure 100004_DEST_PATH_IMAGE004
匹配,计算匈牙利损失;S4生成二维俯瞰画面;S5重建生成斜视拍摄画面;S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面,计算投影一致性损失。本发明提出基于投影一致性孪生Transformer方法,将高位相机的监控画面中车辆位置投影到俯瞰视角下的二维空间中,以适应不同场景下的不同需求。

Description

基于投影一致性和孪生Transformer的三维底盘投影方法
技术领域
本发明属于目标检测技术领域,涉及基于投影一致性和孪生Transformer的三维底盘投影方法。
背景技术
由于高位相机存在俯角和倾斜角的问题,导致停车漏报、误报等一系列问题的发生,造成智能停车行业管理难、运营难。传统停车位置判断大都基于二维深度地盘投影的方法:基于卷积神经网络对车辆二维位置进行预测,将预测的检测框和停车位的位置进行重叠比例判断,当重叠比例超过一定阈值时,判断车辆停靠在某个停车位上。然而在实际应用中,由于高位相机的安装位置、俯角、倾斜角等因素差距较大,无法使用一个统一的模型灵活的适配各个应用场景。针对特定场景下的投影算法和单独配置参数虽然可以在一定程度上提高算法精度,但增加了额外的人工成本和时间成本。
发明内容
本发明为了弥补现有技术的不足,提供了基于投影一致性和孪生Transformer的三维底盘投影方法,本发明将高位相机的监控画面中斜视车辆位置投影到俯瞰视角,在三维空间内完成二维空间的转换;利用俯瞰坐标这样的强监督信号辅助训练,本发明得以适应不同场景下的不同需求,提高底盘投影的精准度。本发明是通过如下技术方案实现的:本发明提供了基于投影一致性和孪生Transformer的三维底盘投影方法,包括如下步骤:
S1构建和标注数据集,选取若干不同高位相机拍摄的视频片段构建视频集,若干视频集构建成数据集,对数据集进行数据标注,标记车辆的斜视坐标,额外构建一个二维俯瞰画面片段,标记车辆的俯瞰坐标;
S2选取同一个视频集的两个来自不同高位相机的相似视频片段输入孪生Transformer,提取序列特征,预测车辆停车斜视坐标;
S3基于匈牙利算法将预测的斜视坐标
Figure 222775DEST_PATH_IMAGE001
与真实斜视坐标
Figure 100002_DEST_PATH_IMAGE002
匹配,计算匈牙利损失;
S4基于孪生Transformer提取的特征,生成二维俯瞰画面;
S5基于孪生Transformer提取的特征,重建生成斜视拍摄画面;
S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面,计算投影一致性损失。
本发明的有益效果是:
本发明提出了一种基于投影一致性和孪生Transformer的三维底盘投影方法,从三维空间的视角来学习车辆位置在不同空间视图上的变换。不同高位相机因为安装位置不同有不同的拍摄角度,可视为不同的斜视空间视图。通过不同斜视空间视图和俯瞰空间视图之间的迁移变换,可以学习到车辆在三维空间视图上的与拍摄视角无关的位置特征信息,进而可以得到三维空间内任意角度的真实坐标(即不同高位相机拍摄角度下的斜视坐标和俯瞰坐标)。
本发明使用孪生Transformer学习成对数据之间潜在俯瞰特征,从特征的角度学习不同高位相机之间的几何特征差异,从而学习到一个与拍摄视角无关的特征信息。基于投影一致性损失将该特征信息还原到不同空间视角(斜视空间视图和俯瞰空间视图),来保证在不同空间视图上迁移过程的信息损耗最小,从而保留更多的有效信息。
由于不同高位相机拍摄的画面具有相似性,其相似性表现在将监控画面投影到俯瞰视角时,车辆的运动轨迹在三维空间内是一致的,基于孪生Transformer的设计就是基于二者的相似性寻找一个潜在的俯瞰视觉空间。基于投影一致性来优化增强这个过程。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的方法流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
附图1为本发明的基于投影一致性和孪生Transformer的三维底盘投影方法的具体实施例。该实施例包括如下步骤,
S1构建和标注数据集。选取若干不同高位相机拍摄的视频片段构建视频集,若干视频集构建成数据集,对于每个视频集,由不同高位相机在同一时间,同一车库拍摄的视频片段构成,每个片段中都有若干斜视拍摄画面。规定选取的每个视频片段中必须出现目标车辆,即要停车的车辆,而目标车辆在车库中的停车轨迹是一致的,所以每个视频集中的每两个视频片段都是相似片段。此处的相似指在三维空间内车辆的行车轨迹相同,在二维斜视空间内,不同高位相机拍摄画面中的车辆行车轨迹相似。
对构建的数据集进行人工标注,对于一个车辆的停车轨迹,在相似片段中标记车辆的斜视坐标,额外构建一个二维俯瞰画面片段,标记俯瞰坐标;由于同一时间在车库中有多辆车进行停车,所以在一个画面中可能出现M个车辆,每一个车辆的停车轨迹作为一个实例。
步骤S1中,基于大量真实的不同高位相机拍摄的车辆停车画面,以一个车辆停车的所有画面为单位,对于同一高位相机拍摄的监控画面,同一车辆从进入监控画面起至停放不动,均匀的取30个画面作为一个单元,即一个视频片段,取若干不同高位相机拍摄的视频片段构建视频集;对于每个视频集,生成30个对应停车位置的二维俯瞰画面,车辆所在位置的连接矩形是白色,背景是黑色。
S2使用相似的一对视频片段输入孪生Transformer,提取序列特征,预测车辆停车斜视坐标。由于不同高位相机拍摄的画面具有相似性,其相似性表现在将监控画面投影到俯瞰视角时,车辆的运动轨迹在三维空间内是一致的。预测N个车辆停车候选斜视坐标i,其中N>M,第i个候选斜视坐标表示为
Figure 798637DEST_PATH_IMAGE003
,其中,i={1,…,N},
Figure 100002_DEST_PATH_IMAGE004
表示第i个候选坐标的预测实例类别,即判断为哪辆车进行停车,
Figure 100002_DEST_PATH_IMAGE005
表示第i个候选坐标的预测斜视坐标框,该框表示为一个向量[cx,cy,cl,ct],包括目标框中心点坐标值(cx,cy),中心点距离目标框左侧边界的距离cl,中心点距离目标框上侧边界的距离ct。
对于步骤S2,每次选取同一个视频集的两个来自不同高位相机的相似视频片段作为网络的输入,具体的,两个视频片段分别经过在ImageNet数据集上预训练过的ResNet101网络提取特征,即每个视频片段的30个画面提取30个高维视觉特征,将每个特征拉伸成一维向量,将30个一维向量拼接,组成尺寸大小为30*N的序列特征。
孪生Transformer模型由两个标准的Transformer模型组成,二者结构相同,权重共享;每个Transformer模型输出一个大小为30*N的序列特征,沿拼接方向划分成30个高维视觉再编码特征,每个再编码特征是一个一维向量;将一维向量重塑成高维视觉特征大小,经过一个前馈神经网络F1预测得到斜视坐标;经过孪生Transformer,每个视频片段中的每一个监控画面都可以得到预测的车辆斜视坐标;斜视坐标变量经过一个与F1结构相同的前馈神经网络F2,得到预测的实例类别。
S3基于匈牙利算法将预测的斜视坐标
Figure 984899DEST_PATH_IMAGE001
与真实斜视坐标
Figure 98217DEST_PATH_IMAGE002
匹配,计算匈牙利损失。将N个预测的车辆停车候选斜视坐标和M个车辆停车真实斜视坐标进行匹配,可视为一个二分图匹配问题,计算匈牙利损失;
Figure 100002_DEST_PATH_IMAGE007
其中,对于第
Figure 100002_DEST_PATH_IMAGE008
个真实斜视坐标,
Figure DEST_PATH_IMAGE009
表示该预测的类别的损失值,使用IOU损失计算坐标框之间的损失;在实际计算中,需要构造N至M个空实例;计算匈牙利损失时,只计算预测为真实实例类别的预测斜视坐标
Figure 896278DEST_PATH_IMAGE001
和真实斜视坐标
Figure 187582DEST_PATH_IMAGE002
的匈牙利损失。
匈牙利算法的时间复杂度是
Figure 100002_DEST_PATH_IMAGE010
,其中N是实例的个数;由于在实际算法中N取值为5,所以使用匈牙利算法可以加快模型的收敛速度。
S4基于孪生Transformer提取的特征,生成二维俯瞰画面。
对于每个视频片段,基于30个高维视觉再编码特征,经过一个解码器,预测得到二维俯瞰画面;具体的,所述解码器由4个卷积层组成,分别是Conv_1,Conv_2,Conv_3,Conv_4,卷积核都是(3,3),步长分别是(1,1),(2,2),(2,2),(2,2);解码器输出视频监控画面的热力图,经过全连接条件随机场层后预测得到二维俯瞰画面。
S5基于孪生Transformer提取的特征,重建生成斜视拍摄画面。
S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面,计算投影一致性损失。
步骤S6中,对于每个视频片段的再编码特征,经过一个解码器结构,得到预测的二维斜视画面;具体的,解码器结构与步骤S4中解码器结构相同,但不共享权值。
步骤S6中计算投影一致性损失,
Figure 100002_DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE013
表示生成的二维俯瞰画面,
Figure 100002_DEST_PATH_IMAGE014
表示数据集构建的二维俯瞰画面;p表示输入的相似片段数量,T表示一个相似片段的斜视拍摄画面数量,
Figure DEST_PATH_IMAGE016
表示重建生成的第i个相似片段中第j个斜视拍摄画面,
Figure DEST_PATH_IMAGE018
表示第i个相似片段中第j个斜视拍摄画面。
最小化二者的平方误差,确保能够根据使用孪生Transformer模型提取的与拍摄视角无关的特征能够还原输入片段和俯瞰画面,保证在该过程中没有损失重要的特征信息且删除了与拍摄视角有关的干扰因素。
由于此处的二维俯瞰画面是二值图像,只有车辆所在处是白色,其余背景均是黑色,所以不需要额外预测位置框,仅需要计算画面的平方误差即可。
步骤S1-S6为本发明的训练过程;在实际应用中,选取一段视频片段,经过孪生Transformer模型得到与拍摄视角无关的特征,在经过F1和F2 预测的车辆斜视位置和相应的实例类别。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于,包括如下步骤:
S1构建和标注数据集,选取若干不同高位相机拍摄的视频片段构建视频集,若干视频集构建成数据集,对数据集进行数据标注,标记车辆的斜视坐标,额外构建一个二维俯瞰画面片段,标记车辆的俯瞰坐标;
S2选取同一个视频集的两个来自不同高位相机的相似视频片段输入孪生Transformer,提取序列特征,预测车辆停车斜视坐标;
S3基于匈牙利算法将预测的斜视坐标
Figure 350445DEST_PATH_IMAGE001
与真实斜视坐标
Figure DEST_PATH_IMAGE002
匹配,计算匈牙利损失;具体操作为,将N个预测的车辆停车候选斜视坐标和M个车辆停车真实斜视坐标进行匹配,可视为一个二分图匹配问题,计算匈牙利损失,
Figure 64323DEST_PATH_IMAGE003
,其中,i表示车辆停车候选斜视坐标,
Figure DEST_PATH_IMAGE004
表示第i个候选坐标的预测实例类别,对于第
Figure DEST_PATH_IMAGE005
个真实斜视坐标,
Figure DEST_PATH_IMAGE006
表示该预测的类别的损失值,使用iou损失计算坐标框之间的损失,
Figure DEST_PATH_IMAGE007
表示第i个候选坐标的预测斜视坐标框;在实际计算中,需要构造N至M个空实例;计算匈牙利损失时,只计算预测为真实实例类别的预测斜视坐标
Figure 470159DEST_PATH_IMAGE001
和真实斜视坐标
Figure DEST_PATH_IMAGE008
的匈牙利损失;
S4基于孪生Transformer提取的特征,生成二维俯瞰画面;
S5基于孪生Transformer提取的特征,重建生成斜视拍摄画面;
S6基于生成的二维俯瞰画面和重建生成的斜视拍摄画面,计算投影一致性损失,
Figure DEST_PATH_IMAGE010
,其中,
Figure DEST_PATH_IMAGE011
表示生成的二维俯瞰画面,
Figure DEST_PATH_IMAGE012
表示数据集构建的二维俯瞰画面;p表示输入的相似片段数量,T表示一个相似片段的斜视拍摄画面数量,
Figure DEST_PATH_IMAGE013
表示重建生成的第i个相似片段中第j个斜视拍摄画面,
Figure DEST_PATH_IMAGE014
表示第i个相似片段中第j个斜视拍摄画面。
2.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于:步骤S1中,基于大量真实的不同高位相机拍摄的车辆停车画面,以一个车辆停车的所有画面为单位,对于同一高位相机拍摄的监控画面,同一车辆从进入监控画面起至停放不动,均匀的取30个画面作为一个单元,即一个视频片段,取若干不同高位相机拍摄的视频片段构建视频集;对于每个视频集,生成30个对应停车位置的二维俯瞰画面,车辆所在位置的连接矩形是白色,背景是黑色。
3.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于:对于步骤S2,每次选取同一个视频集的两个来自不同高位相机的相似视频片段作为网络的输入,具体的,两个视频片段分别经过在ImageNet数据集上预训练过的ResNet101网络提取特征,即每个视频片段的30个画面提取30个高维视觉特征,将每个特征拉伸成一维向量,将30个一维向量拼接,组成尺寸大小为30*N的序列特征。
4.根据权利要求3所述的基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于:孪生Transformer模型由两个标准的Transformer模型组成,二者结构相同,权重共享;每个Transformer模型输出一个大小为30*N的序列特征,沿拼接方向划分成30个高维视觉再编码特征,每个再编码特征是一个一维向量;将一维向量重塑成高维视觉特征大小,经过一个前馈神经网络F1预测得到斜视坐标;经过孪生Transformer,每个视频片段中的每一个监控画面都可以得到预测的车辆斜视坐标;斜视坐标变量经过一个与F1结构相同的前馈神经网络F2,得到预测的实例类别。
5.根据权利要求4所述的基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于:对于每个视频片段,基于30个高维视觉再编码特征,经过一个解码器,预测得到二维俯瞰画面;具体的,所述解码器由4个卷积层组成,分别是Conv_1,Conv_2,Conv_3,Conv_4,卷积核都是(3,3),步长分别是(1,1),(2,2),(2,2),(2,2);解码器输出视频监控画面的热力图,经过全连接条件随机场层后预测得到二维俯瞰画面。
6.根据权利要求1所述的基于投影一致性和孪生Transformer的三维底盘投影方法,其特征在于:步骤S6中,对于每个视频片段的再编码特征,经过一个解码器结构,得到预测的二维斜视画面;具体的,解码器结构与步骤S4中解码器结构相同,但不共享权值。
CN202210159431.7A 2022-02-22 2022-02-22 基于投影一致性和孪生Transformer的三维底盘投影方法 Active CN114219901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159431.7A CN114219901B (zh) 2022-02-22 2022-02-22 基于投影一致性和孪生Transformer的三维底盘投影方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159431.7A CN114219901B (zh) 2022-02-22 2022-02-22 基于投影一致性和孪生Transformer的三维底盘投影方法

Publications (2)

Publication Number Publication Date
CN114219901A CN114219901A (zh) 2022-03-22
CN114219901B true CN114219901B (zh) 2022-06-10

Family

ID=80709181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159431.7A Active CN114219901B (zh) 2022-02-22 2022-02-22 基于投影一致性和孪生Transformer的三维底盘投影方法

Country Status (1)

Country Link
CN (1) CN114219901B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187591B (zh) * 2023-04-27 2023-07-07 松立控股集团股份有限公司 基于动态时空趋势的商业停车场剩余车位数量预测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610219B (zh) * 2017-08-29 2020-03-10 武汉大学 三维场景重构中几何线索感知的像素级点云稠密化方法
DE102018129600A1 (de) * 2018-11-23 2020-05-28 Fielmann Ventures GmbH Verfahren und System zur virtuellen Anprobe einer Brille
EP4104104A1 (en) * 2020-02-10 2022-12-21 Deeplife Generative digital twin of complex systems
CN112801043B (zh) * 2021-03-11 2022-07-15 河北工业大学 基于深度学习的实时视频人脸关键点检测方法
CN113344003B (zh) * 2021-08-05 2021-11-02 北京亮亮视野科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113673425B (zh) * 2021-08-19 2022-03-15 清华大学 一种基于Transformer的多视角目标检测方法及系统
CN113961734B (zh) * 2021-12-22 2022-04-01 松立控股集团股份有限公司 基于停车数据和app操作日志的用户和车辆画像构建方法
CN114067286A (zh) * 2022-01-18 2022-02-18 松立控股集团股份有限公司 基于序列化可形变注意力机制的高位相机车辆重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shuyuan Yang ; Penglei Jin ; Bin Li ; Lixia Yang ; Wenhui Xu ; Lichen."Semisupervised Dual-Geometric Subspace Projection for Dimensionality Reduction of Hyperspectral Image Data".《 IEEE Transactions on Geoscience and Remote Sensing 》.2013, *

Also Published As

Publication number Publication date
CN114219901A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
Lu et al. Monocular semantic occupancy grid mapping with convolutional variational encoder–decoder networks
KR102235745B1 (ko) 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
CN107980150B (zh) 对三维空间建模
Zhao et al. Lif-seg: Lidar and camera image fusion for 3d lidar semantic segmentation
CN111401150B (zh) 一种基于实例分割和自适应变换算法的多车道线检测方法
Lee et al. Accurate license plate recognition and super-resolution using a generative adversarial networks on traffic surveillance video
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
Sun et al. Efficient spatial-temporal information fusion for lidar-based 3d moving object segmentation
CN114842028A (zh) 一种跨视频目标跟踪方法、系统、电子设备以及存储介质
CN110765841A (zh) 基于混合注意力机制的群组行人重识别系统及终端
Duerr et al. Lidar-based recurrent 3d semantic segmentation with temporal memory alignment
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
CN112381132A (zh) 一种基于多个摄像头融合的目标物跟踪方法和系统
CN114708297A (zh) 一种视频目标跟踪方法及装置
CN114219901B (zh) 基于投影一致性和孪生Transformer的三维底盘投影方法
CN115063447A (zh) 一种基于视频序列的目标动物运动追踪方法及相关设备
CN114821505A (zh) 基于鸟瞰图的多视角3d目标检测方法、存储器及系统
CN111489394A (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN113012191B (zh) 一种基于点云多视角投影图的激光里程计算法
CN114612999A (zh) 一种目标行为分类方法、存储介质及终端
CN108648463B (zh) 一种路口交通视频中车辆检测方法及系统
Wang et al. Stream Query Denoising for Vectorized HD Map Construction
CN116912488B (zh) 基于多目相机的三维全景分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant