CN116030136A

CN116030136A - 基于几何特征的跨视角视觉定位方法、装置和计算机设备

Info

Publication number: CN116030136A
Application number: CN202310319075.5A
Authority: CN
Inventors: 郭瑞斌; 王能; 代维; 唐景昇; 周行
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-04-28
Anticipated expiration: 2043-03-29
Also published as: CN116030136B

Abstract

本申请涉及一种基于几何特征的跨视角视觉定位方法、装置和计算机设备。该方法利用空中图像比地面视角覆盖范围广、无人机灵活的优势，基于VINS‑MONO提取关键帧并构建空中视角下的全局直线特征地图，并通过聚类不同直线得到包含城市建筑物位置信息的聚类地图，地面移动机器人利用VINS‑MONO获取里程计信息并生成局部线特征地图，通过深度学习结合建筑物位置约束与空视线特征地图进行粗定位，然后利用2D‑3D线匹配和位姿估计得到准确位姿。本方法通过由粗定位到准确位姿估计的方式实现跨视角视觉定位，为卫星导航强拒止条件下移动机器人在城市复杂环境中的自主能力提供技术支撑。

Description

基于几何特征的跨视角视觉定位方法、装置和计算机设备

技术领域

本申请涉及视觉定位技术领域，特别是涉及一种基于几何特征的跨视角视觉定位方法、装置和计算机设备。

背景技术

视觉定位(Visual Localization)是基于视觉信息的模式识别任务，具体指给定某一地点图像，在预先构建的地图中获取其位置信息或精确的6自由度位姿。在城市大范围复杂环境下，受地形、遮挡物、路面状况以及搭载摄像头的交通工具移动能力等多方面因素的制约，构建纯地面视角的大范围地图非常困难。而无人机能够覆盖范围广且不会受到地形地貌和建筑物的干扰。因此，使用无人机航拍方式构建城市俯视地图，再将其用于地面移动机器人的定位是一种可能的解决方案。但航拍视角构建的地图与地面视角图像进行跨视角定位面临众多的困难与挑战：一是地图的通用性问题。选用何种特征使空中视角构建的特征地图能够被地面移动机器人使用于定位是一个极具挑战的问题。二是跨视角位姿估计问题。跨视角图像外观差异很大，同一地点空-地图像匹配对人眼而言都极具挑战，现有方法在跨视角下图像匹配性能接近于随机选择；且地面视角图像受动态目标遮挡、不同地点相似外观干扰等因素影响，导致跨视角位姿求解面临极大的困难。

发明内容

基于此，有必要针对上述技术问题，提供一种基于几何特征的跨视角视觉定位方法、装置和计算机设备。

一种基于几何特征的跨视角视觉定位方法，所述方法包括：

获取空中视角城市环境图像序列和地面视角城市环境图像序列。

将所述空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图。

将所述地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图。

根据所述全局直线特征地图进行聚类，得到空视建筑物聚类地图。

根据所述局部直线特征地图进行聚类，得到地面视角建筑物聚类地图。

根据所述空视建筑物聚类地图、所述地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，采用深度学习结合建筑物位置约束的方法进行粗定位，得到地面视角关键帧图像在全局直线特征地图中粗定位结果；

根据所述全局直线特征地图、所述粗定位结果以及地面视角下的关键帧图像和位姿信息，采用2D-3D匹配和位姿估计，得到地面视角关键帧图像的6自由度位姿。

一种基于几何特征的跨视角视觉定位装置，所述装置包括：

跨视角图像序列获取模块，用于获取空中视角城市环境图像序列和地面视角城市环境图像序列。

跨视角直线地图构建模块，用于将所述空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图；将所述地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图。

粗定位模块，用于根据所述全局直线特征地图进行聚类，得到空视建筑物聚类地图；根据所述局部直线特征地图进行聚类，得到地面视角建筑物聚类地图；根据所述空视建筑物聚类地图、所述地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，采用深度学习结合建筑物位置约束的方法进行粗定位，得到地面视角关键帧图像在全局直线特征地图中粗定位结果；

6自由度精定位模块，用于根据所述全局直线特征地图、所述粗定位结果以及地面视角下的关键帧图像和位姿信息，采用2D-3D匹配和位姿估计，得到地面视角关键帧图像的6自由度位姿。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

上述基于几何特征的跨视角视觉定位方法、装置和计算机设备，所述方法利用空中图像比地面视角覆盖范围广、无人机灵活的优势，基于VINS-MONO提取关键帧并构建空中视角下的全局直线特征地图，并通过聚类不同直线得到包含城市建筑物位置信息的聚类地图，地面移动机器人利用VINS-MONO获取里程计信息并生成局部线特征地图，通过深度学习结合建筑物位置约束与空视线特征地图进行粗定位，然后利用2D-3D线匹配和位姿估计得到准确位姿。城市建筑物具有较好的长期稳定性，本发明通过由粗定位到准确位姿估计的方式实现跨视角视觉定位，可以为卫星导航强拒止条件下移动机器人在城市复杂环境中的自主能力提供技术支撑。

附图说明

图1为一个实施例中基于几何特征的跨视角视觉定位方法的流程示意图；

图2为另一个实施例中基于的城市场景三维直线重建系统的工作流程图；

图3为另一个实施例中弱极线约束下的直线匹配示意图；

图4为另一个实施例中跨视角地点识别流程；

图5为另一个实施例中建筑物位置描述子构建；

图6为另一个实施例中跨视角粗定位示意图；

图7为一个实施例中基于几何特征的跨视角视觉定位装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

城市环境中，往往有许多形状规则的人工建筑和标志，直线特征丰富。建筑物上的直线这种几何结构通常不会变化，即使在跨视角极端情况下，地面视角下的建筑物顶端边缘也可与空中俯瞰视角下的直线特征建立对应关系。因此，利用直线等几何特征构建城市场景地图是进行跨视角定位是一种可行方法。

在一个实施例中，如图1所示，提供了一种基于几何特征的跨视角视觉定位方法，该方法包括以下步骤：

步骤100：获取空中视角城市环境图像序列和地面视角城市环境图像序列。

具体的，无人机航拍方式是通过无人机航拍方式获取的城市环境图像序列，空中视角城市环境图像序列。地面视角城市环境图像序列是通过地面移动机器人拍摄的城市环境图像序列。

步骤102：将空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图。

具体的，将空中视角城市环境图像序列采用VINS-MONO方法进行处理，得到幅关键帧图像及其对应位姿；对得到的第i幅关键帧图像采用LSD算法检测得到二维直线集，对不同关键帧图像中的直线特征进行跟踪和筛选，根据筛选结果构建空中视角下的全局直线特征地图。

VINS-MONO方法是Tong Qin等人于2018年在期刊IEEE Transactions onRobotics第34卷第4期上发表的文章《VINS-Mono:A robust and versatile monocularvisual-inertialstateestimator》中提出的方法，在此就不做详细介绍了。

步骤104：将地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图。

具体的，构建地面视角下的局部直线特征地图的方式和构建空中视角下的全局直线特征地图的方式相同，只是将处理数据替换为地面视角城市环境图像序列。

地面移动机器人与无人机相比灵活性较差、任务时间随机，根据地面视角城市环境图像序列生成的是地面视角局部直线地图和若干地面视角关键帧图像。

步骤106：根据全局直线特征地图进行聚类，得到空视建筑物聚类地图。

步骤108：根据局部直线特征地图进行聚类，得到地面视角建筑物聚类地图。

步骤110：根据空视建筑物聚类地图、地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，采用深度学习结合不同建筑物间的相对几何位置约束的方法进行粗定位，得到地面视角关键帧图像在全局直线特征地图中粗定位结果。

具体的，根据空视建筑物聚类地图、地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，利用基于深度学习的跨视角地点识别方法筛选与地面视角下的局部直线特征地图某关键帧匹配的若干空中视角关键帧图像，再结合直线特征所属的建筑物间的位置关系约束得到匹配的空视关键帧，得到地面视角关键帧图像在空视构建的地图中的粗略位置，即实现地点识别。

基于深度学习的跨视角地点识别方法是Sudong Cai等人于2019年在IEEE ICCV上发表的文章《Ground-to-Aerial Image Geo-Localization With a Hard ExemplarReweighting Triplet Loss》中提出的方法，在此就不做详细介绍了。

步骤112：根据全局直线特征地图、粗定位结果以及地面视角下的关键帧图像和位姿信息，采用2D-3D匹配和位姿估计，得到地面视角关键帧图像的6自由度位姿。

具体的，短时间内地面移动机器人移动距离不长，任取地面视角关键帧图像。通过第二步可得到地面视角关键帧图像在空视构建的地图中的粗略位置。然后采用2D-3D线匹配方法获取地面视角关键帧中直线与空视全局地图中直线特征的匹配关系。

上述基于几何特征的跨视角视觉定位方法中，所述方法利用空中图像比地面视角覆盖范围广、无人机灵活的优势，基于VINS-MONO提取关键帧并构建空中视角下的全局直线特征地图，并通过聚类不同直线得到包含城市建筑物位置信息的聚类地图，地面移动机器人利用VINS-MONO获取里程计信息并生成局部线特征地图，通过深度学习结合建筑物位置约束与空视线特征地图进行粗定位，然后利用2D-3D线匹配和位姿估计得到准确位姿。城市建筑物具有较好的长期稳定性，本发明通过由粗定位到准确位姿估计的方式实现跨视角视觉定位，可以为卫星导航强拒止条件下移动机器人在城市复杂环境中的自主能力提供技术支撑。

在其中一个实施例中，步骤102包括：将空中视角城市环境图像序列采用VINS-MONO方法进行处理，得到若干幅空中视角关键帧图像及其对应的位姿信息；对空中视角关键帧图像采用LSD方法，得到二维直线集，并采用图像中两个端点坐标和直线的LBD描述子提取每条二维直线的直线特征；采用LBD匹配和弱极线约束的方法跟踪不同空中视角关键帧图像中直线特征，得到正确跟踪的匹配直线；将不同空中视角关键帧图像中同一匹配直线的端点的三维空间直线坐标取均值作为匹配直线的端点在全局直线特征地图的三维端点坐标；根据所有匹配直线的端点在全局直线特征地图的三维端点坐标，得到空中视角下的全局直线特征地图。

具体的，线段检测器（Line Segment Detector，简称LSD方法）是由RafaelGrompone von Gioi等人2008年在期刊IEEE transactions on pattern analysis andmachine intelligence第32卷第4期上发表的文章《LSD:A fastline segment detectorwith a false detection control》中提出的方法，在此就不做详细介绍了。

带状直线区域描述符(Line Band Descriptor，简称：LBD描述子)是由ZhangLilian等人2013年在期刊Journal of Visual Communication and ImageRepresentation第24卷第7期发表的文章《An efficient and robust line segmentmatching approach based on LBD descriptor and pairwise geometric consistency》中提出的方法，在此就不做详细介绍了。

在其中一个实施例中，采用LBD匹配和弱极线约束的方法跟踪不同空中视角关键帧图像中直线特征，得到正确跟踪的匹配直线，包括：计算一个空中视角关键帧图像中的待跟踪直线的LBD描述子汉明距离；如果另一个空中视角关键帧图像存在一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则该直线特征即为正确跟踪的匹配直线；如果另一个空中视角关键帧图像存在多余一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则计算待跟踪直线端点的极限约束，确定正确跟踪的匹配直线；极限约束的表达式为：

（1）

其中，为另一个空中视角关键帧图像中待跟踪直线两个端点为端点的线段长度；为在另一个空中视角关键帧图像中以待跟踪直线与两条极线的交点为端点的线段长度。

在其中一个实施例中，将不同空中视角关键帧图像中同一跟踪直线的端点的三维空间直线坐标取均值作为匹配直线的端点在全局直线特征地图的三维端点坐标，步骤中匹配直线的端点的三维空间直线坐标的计算步骤具体包括：对待跟踪直线特征对应的空间直线在世界坐标系下的坐标表示采用普鲁克表示方法进行表示；在不同空中视角关键帧图像中得到跟踪直线特征时，生成一个约束方程；约束方程为：

（2）

其中，为待跟踪直线特征对应的空间直线的坐标，为在空中视角关键帧图像相机坐标系下的投影平面法向量，、为关键帧位姿信息。

对幅空中视角关键帧图像生成约束方程组为：

（3）

采用最小二乘法求解约束方程组，将系数矩阵进行奇异值分解：

（4）

将矩阵的最后一列作为三维空间直线坐标。

在一个具体的实施例中，构建基于的城市场景三维直线重建系统，该系统的工作流程如图2所示，主要包括生成关键帧图像及其位姿信息、提取直线特征、直线特征跟踪与筛选、三维直线地图生成等四个部分。以城市环境序列图像为输入，利用方法，输出幅关键帧图像及其位姿；对每幅关键帧图像采用LSD算法检测得到二维直线集，每条直线用图像中两个端点坐标和直线的LBD描述子来描述直线特征；不同关键帧图像中直线特征跟踪是指对某一条直线在关键帧中跟踪其对应的直线，具体采用联合局部描述子LBD匹配和弱极线约束的方法，LBD匹配通过计算待匹配直线LBD描述子的汉明距离实现，而弱极线约束是利用两个端点在不同关键帧中的极线约束，如图3所示，关键帧图像上的直线的起点和终点分别为、,在关键帧图像上对应的极线分别为、,由于在城市场景中重复建筑或窗户等模式较为常见，上可能存在多条与的LBD描述子汉明距离相近的直线特征，通过计算端点的极线约束来减少误匹配， B、C、A、D分别为中某待匹配直线特征两个端点及其与极线、的交点，极线约束通过判断内部两点和外侧两点的线段长度比值(如图中线路BC长度与线段AD的比值)与阈值（作为优选，阈值设为0.9）的大小关系，如大于该阈值认为是正确跟踪的匹配直线；跟踪的直线特征对应的空间直线在世界坐标系下的坐标表示用普鲁克表示法表示为,在相机坐标系下的投影平面法向量为。每当在不同关键帧中得到跟踪直线特征，可产生一个如式（2）所示的约束方程；对幅关键帧图像视角下可生成如式（3）所示的约束方程组；该方程通过最小二乘法求解，将系数矩阵进行奇异值分解（奇异值分解的表达式如式（4）所示），所求的三维空间直线坐标为矩阵的最后一列。

由于普鲁克坐标得到的直线是无限长直线的方向和到原点的距离，但在实际城市场景中，空间直线是有端点的。对于同一空间直线由于观测误差等原因，不同关键帧图像中所跟踪的同一直线特征端点反投影得到的三维空间端点不能完全重合，取其均值作为该直线特征地图的三维端点坐标。

在其中一个实施例中，步骤106包括：对共视关键帧图像上提取的属于同一建筑直线所对应的空间直线路标端点进行中心点聚类，以聚类建筑位置为圆心，r为递增搜索半径，在同一圆环内的建筑位置与构成向量求和平均，得到第一层环内的位置描述；采用第一层环内的位置描述的确定方式确定第二层环内的位置描述；以第一层环内的位置描述向量之间的夹角作为第三个位置描述分量；根据第一层环内的位置描述、第二层环内的位置描述以及第三个位置描述分量，得到的位置描述子，的位置描述子表达式为：

（5）

其中，为的位置描述子，为第一层环内的位置描述，为第二层环内的位置描述，为第三个位置描述分量。

以的位置描述子对建筑直线所对应的空间直线路标端点进行表示，得到空视建筑物聚类地图。

具体的，共视关键帧是指能观察到地图中某直线特征的关键帧集合。

在其中一个实施例中，步骤110包括：将地面视角建筑物聚类地图和空视建筑物聚类地图的建筑物位置表示采用暴力匹配的方法进行位置描述子匹配，得到最优匹配建筑物对和次优匹配对；其中位置描述子匹配公式为：

（6）

其中，为与空视建筑物聚类地图中建筑物的位置表示，位置描述子的距离，为空视建筑物聚类地图中建筑物的位置描述子，为地面视角建筑物聚类地图中建筑物的位置描述子。

根据地面视角的关键帧图像确定获得地面视角视图序列的地面移动机器人的运动轨迹，并根据运动轨迹和地面视角建筑物聚类位置，在二维平面上根据两对匹配点对约束求解空地匹配方程组，得到地面视角关键帧图像在空视地图中的粗定位结果，空地匹配方程组为：

（7）

其中，为地面视角关键帧图像在空视地图中的粗定位结果，为相机内参，为最优匹配建筑物对，为次优匹配建筑物对，、为空视建筑物的聚类位置表示，、为地面视角建筑物的聚类位置表示。

根据路标直线与关键帧的共视关系，得到能观察到建筑物和且与地面视角关键帧图像最优匹配的空中视角关键帧图像。

在一个具体的实施例中，基于深度学习和建筑物位置约束的跨视角地点识别（“粗定位”）的流程如图4所示。图4 中候选空视关键帧是指可能能够观察到该地面视角关键帧中建筑物的空中视角下的关键帧，图4 中地视建筑物聚类地图即为局部建筑物聚类地图。

利用基于CityScapes数据集训练的MaskRCNN模型对关键帧进行实例分割，得到二维图像上不同建筑物聚类信息，由于通过第一步方法重建得到的空间直线与关键帧的共视关系（即空间直线投影在哪些关键帧成像平面上）已知，对共视关键帧上提取的属于同一建筑直线所对应的空间直线路标端点进行中心点聚类，可得到该建筑的地图位置表示。从城市尺度看不同建筑物都分布于同一平面，建筑物的位置描述即在一个平面上记录不同建筑物间二维位置关系，每个聚类后的建筑物位置描述子表示方式如图5所示，以为圆心，为递增搜索半径，在同一圆环内的建筑位置（如或）与构成向量求和平均，如图5中本层环内的位置描述为,同理下一层环内的位置描述为，并以两层环内新的位置描述向量之间的夹角也作为一个位置描述分量,可得到的位置描述子为。

整个空视直线地图聚类后得到地图建筑物位置表示为，当前地面移动机器人视角下得到的局部建筑物聚类地图，将其与空中视角下得到的全局建筑物聚类地图（即：地图建筑物位置）进行位置描述子匹配，如与位置描述子的距离计算公式如式（6）所示。

经暴力匹配得到最优匹配建筑物对和次优匹配对。地面移动机器人依据VINS-Mono结果可以得到自身运动轨迹及其地面视角建筑物聚类位置，在二维平面上根据两对匹配点对约束，通过求解如式（7）所示的方程组得到其在空视地图中的粗略位置，式中为相机内参。根据路标直线与关键帧的共视关系，可得到能观察到建筑物和且与最优匹配的空中视角关键帧图像。跨视角粗定位示意图如图6所示。

在其中一个实施例中，步骤112包括：根据粗定位结果采用2D-3D匹配方法，得到地面视角关键帧图像中二维直线特征与全局直线特征地图中三维直线特征的匹配关系，当匹配关系满足预设匹配阈值，则得到一对2D-3D匹配直线；匹配关系为：，其中表示匹配线段的角度，表示三维线投影到二维图像平面的两个端点到匹配的二维线段之间的距离，表示三维线投影到图像平面上的线段与匹配的二维线段之间的重叠度；对于一对2D-3D匹配直线，通过3D投影点到2D线的距离和2D-3D最小化投影误差的目标函数对相机位姿进行优化，得到地面视角关键帧图像的6自由度相机位姿；2D-3D最小化投影误差的目标函数表达式为：

（8）

其中，和表示三维线的两个端点，N表示对应2D-3D匹配直线对的数量，为6自由度相机位姿的李代数表示，为初始化相机位姿，为二维线的系数向量表示，表示相机的内参，为位姿李代数转三维欧氏变换矩阵的函数，。

在其中一个实施例中，匹配线段的角度的表达式为：

（9）

其中，为空视3D直线特征的2D投影线段的归一化朝向，为平面上直接提取的二维线的朝向。

三维线投影到二维图像平面的两个端点到匹配的二维线段之间的距离的表达式为：

（10）

其中，A、B和C为提取的2D线段的参数化表达式的系数向量，分别为线段第一个端点的二维坐标向量的x、y值；，为线段第二个端点的二维坐标向量的x、y值。

三维线投影到图像平面上的线段与匹配的二维线段之间的重叠度的表达式为：

（11）

其中，分别为线段两端点的二维坐标向量。

具体的，根据粗定位结果，然后采用2D-3D线匹配方法获取地面视角关键帧中直线与空视全局地图中直线特征的匹配关系：将对应的全局三维直线特征利用投影到地面视角关键帧图像相机成像平面，使用一个三维向量描述地面视角关键帧图像上的二维直线特征与地图三维直线路标匹配关系的相似性。表示匹配线段的角度，表示3D线投影到2D图像平面的两个端点到匹配的2D线段之间的距离，表示3D线投影到图像平面上的线段与匹配的2D线段之间的重叠度。

空视3D直线特征在图像平面的投影记为，分别为线段两端点的二维坐标向量，均包括两个分量，即,2D投影线段的归一化朝向, 对应的上提取的匹配2D线为，可以通过式（9）计算。

对提取的2D线段用参数化可表示为，距离可以定义如式（10）所示的计算公式。

通过使用点到线的投影，3D线段投影的和被检测到的2D线段之间的重叠长度的表达式如式（11）所示。

对于每个提取的2D线段，应用暴力搜索其与3D直线特征投影得到的线段之间的匹配关系。如果并且，则认为当前的2D-3D线段是匹配对。

对于一对2D-3D线匹配，相机位姿可以通过3D投影点到2D线的距离进行优化，地面视角关键帧的6自由度相机位姿的李代数表示为，2D线的系数向量表示为，2D-3D最小化投影误差的目标函数如式（8）所示。

式（8）可以看作是一个非线性最小二乘问题，初始化相机位姿利用第二步已经得到，再通过典型的L-M算法可以找到相机位姿的最优解。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种基于几何特征的跨视角视觉定位装置，包括：跨视角图像序列获取模块、跨视角直线地图构建模块、粗定位模块和6自由度精定位模块，其中：

跨视角直线地图构建模块，用于将空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图；将地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图。

粗定位模块，用于根据全局直线特征地图进行聚类，得到空视建筑物聚类地图；根据局部直线特征地图进行聚类，得到地面视角建筑物聚类地图；根据空视建筑物聚类地图、地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，采用深度学习结合建筑物位置约束的方法进行粗定位，得到地面视角关键帧图像在全局直线特征地图中粗定位结果；

6自由度精定位模块，用于根据全局直线特征地图、粗定位结果以及地面视角下的关键帧图像和位姿信息，采用2D-3D匹配和位姿估计，得到地面视角关键帧图像的6自由度位姿。

在其中一个实施例中，跨视角直线地图构建模块，用于将空中视角城市环境图像序列采用VINS-MONO方法进行处理，得到若干幅空中视角关键帧图像及其对应的位姿信息；对空中视角关键帧图像采用LSD方法，得到二维直线集，并采用图像中两个端点坐标和直线的LBD描述子提取每条二维直线的直线特征；采用LBD匹配和弱极线约束的方法跟踪不同空中视角关键帧图像中直线特征，得到正确跟踪的匹配直线；将不同空中视角关键帧图像中同一匹配直线的端点的三维空间直线坐标取均值作为匹配直线的端点在全局直线特征地图的三维端点坐标；根据所有匹配直线的端点在全局直线特征地图的三维端点坐标，得到空中视角下的全局直线特征地图。

在其中一个实施例中，跨视角直线地图构建模块，用于计算一个空中视角关键帧图像中的待跟踪直线的LBD描述子汉明距离；如果另一个空中视角关键帧图像存在一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则该直线特征即为正确跟踪的匹配直线；如果另一个空中视角关键帧图像存在多余一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则计算待跟踪直线端点的极限约束，确定正确跟踪的匹配直线；极限约束的表达式如式（1）所示。

在其中一个实施例中，跨视角直线地图构建模块中匹配直线的端点的三维空间直线坐标的计算步骤具体包括：对待跟踪直线特征对应的空间直线在世界坐标系下的坐标表示采用普鲁克表示方法进行表示；在不同空中视角关键帧图像中得到跟踪直线特征时，生成一个约束方程；约束方程如式（2）所示；对幅空中视角关键帧图像生成约束方程组，如式（3）所示；采用最小二乘法求解约束方程组，将系数矩阵进行奇异值分解，奇异解分解表达式如式（4）所示；将矩阵的最后一列作为三维空间直线坐标。

在其中一个实施例中，粗定位模块，还用于对共视关键帧图像上提取的属于同一建筑直线所对应的空间直线路标端点进行中心点聚类，以聚类建筑物位置为圆心，r为递增搜索半径，在同一圆环内的建筑位置与构成向量求和平均，得到第一层环内的位置描述；采用第一层环内的位置描述的确定方式确定第二层环内的位置描述；以第一层环内的位置描述向量之间的夹角作为第三个位置描述分量；根据第一层环内的位置描述、第二层环内的位置描述以及第三个位置描述分量，得到的位置描述子，的位置描述子表达式如式（5）所示；以的位置描述子对建筑直线所对应的空间直线路标端点进行表示，得到空视建筑物聚类地图。

在其中一个实施例中，粗定位模块，还用于将地面视角建筑物聚类地图和空视建筑物聚类地图的建筑物位置表示采用暴力匹配的方法进行位置描述子匹配，得到最优匹配建筑物对和次优匹配对；其中位置描述子匹配公式如式（6）所示；根据地面视角的关键帧图像确定获得地面视角视图序列的地面移动机器人的运动轨迹，并根据运动轨迹和地面视角建筑物聚类位置，在二维平面上根据两对匹配点对约束求解空地匹配方程组，得到地面视角关键帧图像在空视地图中的粗定位结果，空地匹配方程组如式（7）所示；根据路标直线与关键帧的共视关系，得到能观察到建筑物和且与地面视角关键帧图像最优匹配的空中视角关键帧图像。

在其中一个实施例中，6自由度精定位模块，用于根据粗定位结果采用2D-3D匹配方法，得到地面视角关键帧图像中二维直线特征与全局直线特征地图中三维直线特征的匹配关系，当匹配关系满足预设匹配阈值，则得到一对2D-3D匹配直线；匹配关系为：，其中表示匹配线段的角度，表示三维线投影到二维图像平面的两个端点到匹配的二维线段之间的距离，表示三维线投影到图像平面上的线段与匹配的二维线段之间的重叠度；对于一对2D-3D匹配直线，通过3D投影点到2D线的距离和2D-3D最小化投影误差的目标函数对相机位姿进行优化，得到地面视角关键帧图像的6自由度相机位姿；2D-3D最小化投影误差的目标函数表达式如式（8）所示。

在其中一个实施例中，6自由度精定位模块中匹配线段的角度的表达式如式（9）所示；三维线投影到二维图像平面的两个端点到匹配的二维线段之间的距离的表达式如式（10）所示；三维线投影到图像平面上的线段与匹配的二维线段之间的重叠度的表达式如式（11）所示。

关于基于几何特征的跨视角视觉定位装置的具体限定可以参见上文中对于基于几何特征的跨视角视觉定位方法的限定，在此不再赘述。上述基于几何特征的跨视角视觉定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于几何特征的跨视角视觉定位方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于几何特征的跨视角视觉定位方法，其特征在于，所述方法包括：

获取空中视角城市环境图像序列和地面视角城市环境图像序列；

将所述空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图；

将所述地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图；

根据所述全局直线特征地图进行聚类，得到空视建筑物聚类地图；

根据所述局部直线特征地图进行聚类，得到地面视角建筑物聚类地图；

2.根据权利要求1所述的方法，其特征在于，将所述空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图，包括：

将所述空中视角城市环境图像序列采用VINS-MONO方法进行处理，得到若干幅空中视角关键帧图像及其对应的位姿信息；

对所述空中视角关键帧图像采用LSD方法，得到二维直线集，并采用图像中两个端点坐标和直线的LBD描述子提取每条二维直线的直线特征；

采用LBD匹配和弱极线约束的方法跟踪不同所述空中视角关键帧图像中直线特征，得到正确跟踪的匹配直线；

将不同所述空中视角关键帧图像中同一所述匹配直线的端点的三维空间直线坐标取均值作为匹配直线的端点在全局直线特征地图的三维端点坐标；

根据所有所述匹配直线的端点在全局直线特征地图的三维端点坐标，得到空中视角下的全局直线特征地图。

3.根据权利要求2所述的方法，其特征在于，采用LBD匹配和弱极线约束的方法跟踪不同所述空中视角关键帧图像中直线特征，得到正确跟踪的匹配直线，包括：

计算一个所述空中视角关键帧图像中的待跟踪直线的LBD描述子汉明距离；

如果另一个所述空中视角关键帧图像存在一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则该直线特征即为正确跟踪的匹配直线；

如果另一个所述空中视角关键帧图像存在多余一条与待跟踪直线的LBD描述子汉明距离相近的直线特征时，则计算待跟踪直线端点的极限约束，确定正确跟踪的匹配直线；极限约束的表达式为：

；

其中，为另一个所述空中视角关键帧图像中待跟踪直线两个端点为端点的线段长度；为在另一个所述空中视角关键帧图像中以待跟踪直线与两条极线的交点为端点的线段长度。

4.根据权利要求2所述的方法，其特征在于，将不同所述空中视角关键帧图像中同一跟踪直线的端点的三维空间直线坐标取均值作为匹配直线的端点在全局直线特征地图的三维端点坐标，步骤中所述匹配直线的端点的三维空间直线坐标的计算步骤具体包括：

对待跟踪直线特征对应的空间直线在世界坐标系下的坐标表示采用普鲁克表示方法进行表示；

在不同空中视角关键帧图像中得到跟踪直线特征时，生成一个约束方程；所述约束方程为：

；

其中，为待跟踪直线特征对应的空间直线的坐标，为在空中视角关键帧图像相机坐标系下的投影平面法向量，、为关键帧位姿信息；

对幅空中视角关键帧图像生成约束方程组为：

；

将矩阵的最后一列作为三维空间直线坐标。

5.根据权利要求1所述的方法，其特征在于，根据所述全局直线特征地图进行聚类，得到空视建筑物聚类地图，包括：

对共视关键帧图像上提取的属于同一建筑直线所对应的空间直线路标端点进行中心点聚类，以聚类建筑位置为圆心，r为递增搜索半径，在同一圆环内的建筑位置与构成向量求和平均，得到第一层环内的位置描述；

采用第一层环内的位置描述的确定方式确定第二层环内的位置描述；

以第一层环内的位置描述向量之间的夹角作为第三个位置描述分量；

根据第一层环内的位置描述、第二层环内的位置描述以及第三个位置描述分量，得到的位置描述子，所述B₁的位置描述子表达式为：

；

其中，为的位置描述子，为第一层环内的位置描述，为第二层环内的位置描述，为第三个位置描述分量；

6.根据权利要求5所述的方法，其特征在于，根据所述空视建筑物聚类地图、所述地面视角建筑物聚类地图、以及空中视角和地面视角的关键帧图像和位姿信息，采用深度学习结合建筑物位置约束的方法进行粗定位，得到粗定位结果，包括：

将地面视角建筑物聚类地图和所述空视建筑物聚类地图的建筑物位置表示采用暴力匹配的方法进行位置描述子匹配，得到最优匹配建筑物对和次优匹配对；其中位置描述子匹配公式为：

；

其中，为与空视建筑物聚类地图中建筑物的位置表示位置描述子的距离，为空视建筑物聚类地图中建筑物的位置描述子，为地面视角建筑物聚类地图中建筑物的位置描述子，

根据地面视角的关键帧图像确定获得地面视角视图序列的地面移动机器人的运动轨迹，并根据运动轨迹和地面视角建筑物聚类位置，在二维平面上根据两对匹配点对约束求解空地匹配方程组，得到地面视角关键帧图像在空视地图中的粗定位结果，所述空地匹配方程组为：

；

其中，为地面视角关键帧图像在空视地图中的粗定位结果，为相机内参，为最优匹配建筑物对，为次优匹配建筑物对，、为空视建筑物的聚类位置表示，、为地面视角建筑物的聚类位置表示；

7.根据权利要求1所述的方法，其特征在于，根据所述全局直线特征地图、所述粗定位结果以及地面视角下的关键帧图像和位姿信息，采用2D-3D匹配和位姿估计，得到地面视角关键帧图像的6自由度位姿，包括：

根据所述粗定位结果采用2D-3D匹配方法，得到地面视角关键帧图像中二维直线特征与所述全局直线特征地图中三维直线特征的匹配关系，当匹配关系满足预设匹配阈值，则得到一对2D-3D匹配直线；匹配关系为：，其中表示匹配线段的角度，表示三维线投影到二维图像平面的两个端点到匹配的二维线段之间的距离，表示三维线投影到图像平面上的线段与匹配的二维线段之间的重叠度；

对于一对2D-3D匹配直线，通过3D投影点到2D线的距离和2D-3D最小化投影误差的目标函数对相机位姿进行优化，得到地面视角关键帧图像的6自由度相机位姿；2D-3D最小化投影误差的目标函数表达式为：

；

8.根据权利要求7所述的方法，其特征在于，匹配线段的角度的表达式为：

；

其中，为空视3D直线特征的2D投影线段的归一化朝向，为平面上直接提取的二维线的朝向；

三维投影到二维图像平面的两个端点到匹配的二维线段之间的距离的表达式为：

；

其中，A、B和C为提取的2D线段的参数化表达式的系数向量，，分别为线段第一个端点的二维坐标向量的x、y值；，为线段第二个端点的二维坐标向量的x、y值；

；

其中，，分别为线段两端点的二维坐标向量。

9.一种基于几何特征的跨视角视觉定位装置，其特征在于，所述装置包括：

跨视角图像序列获取模块，用于获取空中视角城市环境图像序列和地面视角城市环境图像序列；

跨视角直线地图构建模块，用于将所述空中视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建空中视角下的全局直线特征地图；将所述地面视角城市环境图像序列基于VINS-MONO提取关键帧图像和位姿信息，并根据提取的关键帧图像构建地面视角下的局部直线特征地图；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。