CN113570662A

CN113570662A - 3d定位来自真实世界图像中地标的系统和方法

Info

Publication number: CN113570662A
Application number: CN202010641960.1A
Authority: CN
Inventors: 赫芒·查拉; 马蒂·尤科拉; 特伦斯·布朗兹; 伊莱厄·阿拉尼; 巴赫拉姆·佐努兹
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2020-04-29
Filing date: 2020-07-06
Publication date: 2021-10-29
Anticipated expiration: 2040-07-06
Also published as: NL2025452B1; US20210342589A1; CN113570662B; EP3905198A1; US11847802B2

Abstract

一种系统，设置用以实施一种用于对来自现实世界的一系列图像中的至少一个地标进行三维定位方法，图像由连续运动的摄像机提供；其结合使用来自摄像机的图像信息和GPS信息，其中摄像机参数是未知的，且在自标定步骤中被估计；其中在后续步骤中，地标的定位是利用摄像机自运动和深度估计的两者之一来完成的。摄像机是单目摄像机。

Description

3D定位来自真实世界图像中地标的系统和方法

技术领域

本发明涉及一种用于对来自现实世界的一系列图像中的至少一个地标进行三维定位的方法，所述图像由连续运动的摄像机提供，该方法结合使用来自所述摄像机的图像信息和GPS(全球定位系统Global Positioning System)信息。本发明还涉及一种配置为实施这种方法的系统。

背景技术

自动驾驶汽车(Autonomous vehicles)和驾驶辅助系统(driver assistancesystem)利用3D语义地标地图来做出改进的决策。然而，缩放地图构建过程和定期更新这种地图带来了巨大的花费。因此，有效利用众包视觉数据(crowd-sourced visual data)的能力对于大规模动态地图构建、自动驾驶和驾驶辅助系统等领域具有极大的潜力。用于众包3D地图构建的现有技术方法假设摄像机参数已知，但摄像机参数可能并不总是已知的，或者可能随着时间变化。

发明内容

本发明的目的在于，仅使用摄像机和GPS，估计语义意义上的地标(例如交通标志)的3D位置，而例如焦距和主点等摄像机参数是未知的，并且其中所述摄像机参数在自标定步骤中被估计，其中在后续步骤中，至少一个地标的定位是利用估计的摄像机自运动和深度估计两者之一完成的。

本发明尤其适用于其中摄像机是单目摄像机的方法和系统。

本发明通过使用GPS和具有未知标定参数的(单目)摄像机能够在汽车环境下进行3D交通标志定位，通过协同应用多视图几何(multi-view-geometry)和深度学习方法提高了整体的地图覆盖范围。

适合地，摄像机的自标定步骤涉及利用运动结构(structure from motion)技术推导摄像机的焦距和主点，该运动结构技术应用于在摄像机的连续运动过程中拍摄的图像序列。优选地，所述运动结构技术为Colmap。

当图像序列是在摄像机连续运动中的一次或多次转向时拍摄的，所述运动结构技术被有利地应用。

另一方面，摄像机的自标定步骤涉及利用深度学习技术推导摄像机的焦距和主点，优选使用野外视频自监督深度(Self-Supervised Depth From Videos in the Wild)来预测各连续图像对的摄像机参数。

适合地，图像序列中的图像的所有估计的“中位”值被应用为焦距和主点的估计值。

尤其当图像是在不存在转向的连续运动的情况下被拍摄时，应用所述深度学习技术是有利的。

优选地，估计摄像机自运动通过使用即时定位与地图构建(SimultaneousLocalization and Mapping,SLAM)技术执行，其中，通过设置slam技术为基于几何的具有环路闭合的单目ORB-SLAM，可以实现最佳结果。

当在图像序列中跟踪摄像机姿态成功时，优选地，基于自标定摄像机参数、计算并缩放的摄像机自运动轨迹以及图像中的地标，应用三角定位法计算地标的位置。

当在图像序列中跟踪摄像机姿态不成功时，优选地，基于自标定摄像机参数、计算并缩放的深度地图，以及图像中的地标，应用逆向投影法计算地标的位置。

为了提高地图的覆盖范围，需要将深度比例因子应用于深度地图，其中所述深度比例因子采用GPS信息推导。

有益地，执行深度估计和各图像的深度地图的生成，同时估计摄像机的自运动。

适合地，深度估计应用单目深度2(Monodepth 2)和野外视频自监督深度两种方法之一，并使用深度学习来生成深度地图。

进一步需要注意的是，生成深度地图涉及计算图像序列中的各图像对的摄像机自运动(ego-motion)。

附图说明

参考附图以及本发明所述方法的示例性实施例的讨论，将在下文中进一步阐述本发明。

在附图中：

图1描述了本发明的单程3D交通标志定位架构(Single Journey 3D TrafficSign Positioning Framework)；

图2描述了本发明的估计3D交通标志位置的两种方法。

图3描述了使用相似三角形以缩放深度(俯视)；以及

图4描述了根据本发明的3D交通标志定位架构的压缩流程图。

具体实施方式

在下文中，将会描述用于3D交通标志定位的两种方法。输入是宽w和高h的n幅彩色图像序列I＝fI0；…；In-1g，和相应的GPS位置G＝gf0；…；gn-1g。输出是m个检测到的交通标志的列表，具有相应的等级标识Ci、绝对位置p^abs _i以及关于在其中检测到标志的相应的帧j的相对位置p^rel _i；j。提出的3D交通标志定位方法的概述在图1中描述。对于这两种方法，本发明的系统包括下列关键模块。

1.交通标志检测和帧间(Inter-frame)标志关联

交通标志3D位置估计的第一个要求是检测其在图像序列中的坐标并识别其等级。这一步骤的输出是包括了检测到的标志及其相应的踪迹和帧数的2D边界框的列表。利用边界框的中心，提取图像中交通标志的坐标。但是，考虑到可能的遮挡，忽略那些在图像的边缘检测到的边界框。

2.摄像机自标定

为了利用众包图像序列以估计交通标志的3D位置，考虑到摄像机固有特性是事先未知的，需要进行摄像机的自标定。为此，利用带有零偏差的针孔摄像机模型，以确定用x和y来代表焦距的fx和fy，并确定主点。

从这套基于几何的方法出发，使用基于运动结构的方法Colmap[见文献9]。注意到对于具有平行光轴的前向运动，自标定存在模糊不定的困扰[见文献6]。因此仅汽车正在转向的那部分序列被利用。为了提取汽车在正在转向的子序列，优选地利用Ramer-Douglas-Peucker(RDP)算法[见文献9]清理轨迹以得到相似的具有较少点的曲线，其中每个点代表一次转向。从基于深度学习的方法可知，采用野外视频自监督深度(Self-SupervisedDepth From Videos in the Wild,VITW)[见文献1]是有利的，其能够估计序列中的连续图像对的焦距和主点。因此，计算各参数的中位数(m)作为最终的估计值。注释训练数据(annotating training data)[见文献7、8]的负荷使得监督方法无法应用于使用众包的情形。

3.摄像机自运动和深度估计

考虑摄像机自标定，如图1和图2所示，3D交通标志定位需要摄像机自运动或深度的计算。

图1描述了单程3D交通标志定位架构。组成部分101和102代表对架构的输入。组成部分201～203代表3D交通标志定位的三个初级步骤的输出，众包地图构建引擎300描述了来自不同车辆的交通标志定位数据。

图2描述了估计3D交通标志位置的两种方法。

方法A利用摄像机的固有特性来进行自运动估计并生成摄像机姿态。方法B利用摄像机的固有特性来进行深度估计并生成各图像的深度地图。方法A和B使用摄像机姿态和深度地图以及交通标志的图像坐标计算交通标志的3D位置。模块201～203描述了在图1中的主要步骤。

方法A

自运动(Ego-Motion)。为了将图2描述的方法A应用于3D交通标志定位，必须从图像序列中计算摄像机的自运动。优选地，应用现有技术的基于几何的具有环路闭合的(LoopClosure，LC)单目方法ORB-SLAM[见文献2-6]。进行视觉自运动估计之后，可以利用GPS位置以缩放所估计的轨迹。使用Umeyama算法[见文献9]，计算相似变换(旋转Re，平移te，和缩放se)以缩放所估计的摄像机位置并使其平行于GPS位置。下文中，如下文第4节中所描述的，该摄像机轨迹被用于3D交通标志位置的计算。

方法B

单目深度(Monocular Depth)。为了将图2中描述的方法B应用于3D交通标志定位，需要密集的单目深度地图(dense monocular depth maps)。为了生成深度地图，优选使用根据单目深度2的自监督方法[见文献4]和VITW。这些方法同时预测了单目深度和摄像机的自运动。

深度缩放

虽然所估计的密集深度地图保留所观察物体的相对深度，但度量深度通过保持前向和后向缩放的一致性来获取。考虑摄像机的标定矩阵K，像素坐标上由于相邻的帧j和j+1之间的旋转R_j+1,j和平移t_j+1,j引起的偏移由下式给出：

d(c_j+1)c_j+1＝KR_j+1,jK^-1d(c_j)c_j+Kt_j+1,j。

其中d(c_j)和d(c_j+1)代表对应于像素点c_j和c_j+1的齐次坐标的未缩放深度。通过将以上公式和前向缩放估计s′_dj+1,j，相乘可知，缩放相对平移同样缩放了深度d(c_j)和d(c_j+1)。

考虑相对GPS平移，缩放后的相对平移记为s′_dj+1，j·t_j+1，j＝g_j+1，j。

因此，前向缩放估计记为

类似地，计算出后向缩放估计s′_dj,j-1。据此，对于帧j＝1...n-2，比例因子s_dj由前向和后向缩放估计s′_dj+1,j和s′_dj,j-1的平均给出。在下文中，该缩放的密集深度地图被用于3D交通标志位置的计算。

图3示出了利用相似三角形的深度的缩放(俯视)。对于场景中的任意物体S(例如交通标志)，自连续摄像机位置P1和P2的深度d1和d2能够用共同的因子sd缩放。比例因子sd是由t_scaled与t_unscaled之比给出的，其中t表示帧之间的相对平移。

4.3D定位和优化

估计并优化检测的交通标志3D位置的最后步骤，采用如图2所示的两种方法。

方法A。在该方法中，用估计的摄像机参数、计算并缩放的自运动轨迹，以及图像中的2D标志观测画面，通过三角定位法计算标志位置。对于在k帧中观察到的标志Si，用中点算法(midpoint algorithm)[见文献10]计算初始标志位置估计p^initi。在该方法中，利用摄像机的固有特性，帧j中的标志i的坐标(ci；j)变形为方向向量。然后，利用线性最小二乘法，计算该初始标志位置以最小化至所有方向向量的距离。在下文中，应用非线性的光束法平差(Bundle Adjustment,BA)通过最小化重投影误差以精细化初始估计。

方法B。在方法B中，利用估计的摄像机参数和缩放的密集深度地图，以及图像中的2D标志观测画面，通过逆向投影法计算3D交通标志位置。

在方法B中，利用估计的摄像机参数和缩放的密集深度地图，以及图像中的2D标志观测画面，通过逆向投影法计算3D交通标志位置。对于在k帧中观测到的标志Si，各相应的深度地图生成一个标志位置假设，由下式给出：

其中，c_i,j表示帧j中标志i的像素坐标，s_dj为相应的深度比例因子。因为在超出一定距离时标志深度估计可能不可靠，所以舍去估计的相对深度超过20m的标志位置假设。为了计算各标志的绝对坐标，各相对标志位置被投影至世界坐标，且其面心(centroid)被计算为绝对标志位置。

概述

如图4所描述，利用上述的组成部分，使用结合多视图几何和深度学习方法的架构。这种方法是基于Colmap和VITW(m)对于自标定是较佳选择的结论。虽然Colmap比VITW(m)更精确，但是如果在序列中没有转向存在，则前者无法估计摄像机参数。在这种情形下，使用VITW(m)。为了估计标志位置，方法A通常是比方法B更优的选择。因此，考虑到估计的摄像机参数，使用具有LC的ORB-SLAM来计算摄像机的自运动。如果序列中帧的跟踪是成功的(即，在跟踪时如果至少80％的输入帧被考虑)且轨迹被计算，应用方法A来计算3D交通标志位置。否则，使用Monodepth 2或VITW计算序列的深度地图，并且作为方法B的一部分计算标志位置。

使用这种方案计算的各验证序列的平均相对和绝对3D交通标志定位误差示于表1。在该验证序列中，利用了存在于通常用于自运动基准的高难度的KITTI数据集—目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集—中的交通标志，以及深度估计(由于其包含了摄像机标定参数)，以及可以进行GT(Ground Truth)3D交通标志位置的注释的同步的激光雷达(LiDAR)信息。更进一步，KITTI彩色摄像机具有较低的分辨率，因此代表了众包视觉序列的数据质量。

由于在序列1中使用ORB-SLAM跟踪自运动失败，在序列1中的交通标志位置使用了方法B。对于主要包括在直路上的平移的序列4，对自标定使用VITW(m)。因此，证明了多视图几何和深度学习的协同作用扩大了地图的覆盖范围。此外，在没有摄像机固有特性的先验知识的情况下，使用这种方法有可能实现所有的10个序列中分别每个序列的平均相对标志定位精度和平均绝对标志定位精度为0.58m和1.92m。对于所有的44个经估计的标志，所实现的相对精度和绝对精度为0.39m和1.68m。根据本发明的相对定位精度与不同于本发明的架构的，使用已知特性的摄像机、GPS和惯性测量单元(Inertial Measurement Unit，IMU)来估计交通标志位置的文献9是可比的。根据本发明的系统的绝对定位精度与亦假设摄像机特性的先验知识的文献5是可比的。

表1：以米为单位的相对和绝对3D交通标志定位误差

序列	0	1	2	4	5	6	7	8	9	10	均值
												相对值	0.35	1.09	0.24	2.1	0.07	0.48	0.22	0.82	0.32	0.10	0.58
绝对值	0.79	1.56	0.84	4.62	0.20	1.19	0.34	8.14	0.92	0.60	1.92

尽管在前述内容中参考本发明的系统的示例性实施例已经讨论了本发明，但是本发明不限于这一特定的实施例，实施例可以在不脱离本发明的情况下以许多方式变化。因此，所讨论的示例性实施例不应被用于据此限制性地理解所附权利要求。相反地，实施例仅意在解释所附权利要求的用词，而不意在于将权利要求限制于该示例性实施例。因此，应仅根据所附权利要求理解本发明的保护范围，其中，使用该示例性实施例来解决权利要求的用词的可能的不明确。

参考文献

[1]Ariel Gordon,Hanhan Li,Rico Jonschkowski,and Anelia Angelova.Depthfrom videos in the wild:Unsupervised monocular depth learning from unknowncameras.In The IEEE International Conference on Computer Vision(ICCV),2019.

(野外视频深度：未知摄像机的无监督单目深度学习。2019年《IEEE国际会议-计算机视觉(ICCV)》中。)

[2]Raul Mur-Artal,Jose Maria Martinez Montiel,and Juan D Tardos.Orb-slam:a versatile and accurate monocular slam system.IEEE transactions onrobotics,31(5):1147–1163,2015.

(Orb-slam：一种多功能的精确单目slam系统。2015年《IEEE交流会刊-机器人学》；31(5):1147–1163。)

[3]Onkar Dabeer,Wei Ding,Radhika Gowaiker,Slawomir K Grzechnik,Mythreya J Lakshman,Sean Lee,Gerhard Reitmayr,Arunandan Sharma,KiranSomasundaram,Ravi Teja Sukhavasi,et al.An end-to-end system for crowdsourced3d maps for autonomous vehicles:The mapping component.In2017IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS),pages 634–641.IEEE,2017.

(一种用于自动驾驶汽车的众包立体地图的端对端系统：地图构建单元。2017年IEEE《IEEE/RSJ国际会议-智能机器人和系统(IROS)》第634–641页中。)

[4]Clément Godard,Oisin Mac Aodha,Michael Firman,and Gabriel JBrostow.Digging into self-supervised monocular depth estimation.InProceedings of the IEEE International Conference on Computer Vision,pages3828–3838,2019.

(自监督单目深度估计的探究。2019年《IEEE国际会议纪要-计算机视觉》第3828–3838页中。)

[5]André Welzel,Andreas Auerswald,and Gerd Wanielik.Accurate camera-based traffic sign localization.In 17^th International IEEE Conference onIntelligent Transportation Systems(ITSC),pages 445–450.IEEE,2014.

(基于摄像机的交通标志精确定位。2014年IEEE《第17届国际IEEE会议-智能交通系统(ITSC)》第445–450页中。)

[6]

Bocquillon,Adrien Bartoli,Pierre Gurdjos,and AlainCrouzil.On constant focal length self-calibration from multiple views.In2007IEEE Conference on Computer Vision and Pattern Recognition,pages 1–8.IEEE,2007.

(关于多视图的固定焦距自标定。2007年IEEE《IEEE会议-计算机视觉和模式识别》第1–8页中。)

[7]Manuel Lopez,Roger Mari,Pau Gargallo,Yubin Kuang,Javier Gonzalez-Jimenez,and Gloria Haro.Deep single image camera calibration with radialdistortion.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pages 11817–11825,2019.

(利用径向畸变的深度单图摄像机标定。2019年《IEEE会议纪要-计算机视觉和模式识别》第11817–11825页中。)

[8]Bingbing Zhuang,Quoc-Huy Tran,Pan Ji,Gim Hee Lee,Loong Fah Cheong,and Manmohan Krishna Chandraker.Degeneracy in self-calibration revisited anda deep learning solution for uncalibrated slam.2019IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS),pages 3766–3773,2019.

(自标定简并性再探和用于未标定slam的深度学习方案。2019年《2019IEEE/RSJ国际会议-智能机器人和系统(IROS)》第3766–3773页中。)

[9]David H Douglas and Thomas K Peucker.Algorithms for the reductionof the number of points required to represent a digitized line or itscaricature.Cartographica:the international journal for geographic informationand geovisualization,10(2):112–122,1973.

(用于减少表示数字化线条或者其漫画所需的点的数量的算法。1973年《制图学：地理信息和地理可视化国际期刊》10(2):112–122。)

[10]Shinji Umeyama.Least-squares estimation of transformationparameters between two point patterns.IEEE Transactions on Pattern Analysis&Machine Intelligence,pages 376–380,1991.

(两个点模式之间的变形参数的最小二乘估计。1991年《IEEE会刊-模式分析和机器智能》第376–380页。)

[11]Richard Szeliski.Computer vision:algorithms andapplications.Springer Science&Business Media,2010.

(计算机视觉：算法和应用。2010年《斯普林格科学和商业媒体》。)

Claims

1.一种用于对来自现实世界的一系列图像中的至少一个地标进行定位方法，所述图像由连续运动的摄像机提供；所述方法结合使用来自所述摄像机的图像信息和GPS信息，其中摄像机参数是未知的，且在自标定步骤中被估计；其中在后续步骤中，所述地标的定位是利用摄像机自运动和深度估计的两者之一来完成的。

2.根据权利要求1所述的方法，其特征在于，所述摄像机是单目摄像机。

3.根据权利要求1或2所述的方法，其特征在于，所述摄像机的所述自标定步骤涉及利用运动结构技术Colmap，推导所述摄像机的焦距和主点，所述运动结构技术应用于所述在连续运动过程中拍摄的图像序列。

4.根据权利要求3所述的方法，其特征在于，所述图像序列是在所述摄像机连续运动中的一次或多次转向时拍摄的。

5.根据权利要求1或2所述的方法，其特征在于，所述摄像机的所述自标定步骤涉及利用深度学习技术推导所述摄像机的焦距和主点，所述深度学习技术为野外视频自监督深度。

6.根据权利要求5所述的方法，其特征在于，所述图像是在所述连续运动中不存在转向时拍摄的。

7.根据权利要求1-6中任一项所述的方法，其特征在于，当摄像机跟踪成功，则基于自标定的摄像机参数、计算并缩放的摄像机自运动轨迹以及所述图像中的所述地标，应用三角定位法计算所述地标的位置；当摄像机跟踪不成功，则基于自标定的摄像机参数、计算并缩放的深度地图以及所述图像中的所述地标，应用逆向投影法计算所述地标的位置。

8.根据权利要求7所述的方法，其特征在于，将深度比例因子应用于所述深度地图，其中所述深度比例因子采用GPS信息推导。

9.根据权利要求7或8所述的方法，其特征在于，执行深度估计和各图像的深度地图的生成，其中使用单目深度2和野外视频自监督深度的其中之一进行深度估计，并使用深度学习来生成所述深度地图；

同时，通过计算所述图像序列中的各图像对来估计所述摄像机自运动。

10.一种系统，其特征在于，配置为实施根据权利要求1-9中任一项所述方法。