CN115409910A

CN115409910A - 一种语义地图构建方法、视觉定位方法及相关设备

Info

Publication number: CN115409910A
Application number: CN202110592199.1A
Authority: CN
Inventors: 杨晟; 程文韬; 陈一鸣; 李名杨
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-11-29

Abstract

本申请实施例提供一种语义地图构建方法、视觉定位方法及相关设备，其中语义地图构建方法包括：获取道路图像帧；提取所述道路图像帧的语义视觉特征，所述语义视觉特征为所述道路图像帧中道路元素的特征信息；确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系；至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息；至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图。本申请实施例可提升语义地图的定位精度，实现精确的车辆视觉定位。

Description

一种语义地图构建方法、视觉定位方法及相关设备

技术领域

本申请实施例涉及地图数据技术领域，具体涉及一种语义地图构建方法、视觉定位方法及相关设备。

背景技术

车辆在道路上的视觉定位是车辆的辅助驾驶系统、自动驾驶系统中的一个关键环节。车辆的视觉定位可依赖于语义地图实现。语义地图是在融合视觉传感器、地理定位传感器等多传感器的基础上产生的地图数据。基于语义地图实现车辆的视觉定位，可为车辆的辅助驾驶、自动驾驶提供决策依据。

车辆的车载传感器和计算资源是有限的，因此如果需要在有限的车载传感器和计算资源下实现精确的视觉定位，语义地图需要具有较高的定位精度。

发明内容

有鉴于此，本申请实施例提供一种语义地图构建方法、定位方法、装置及相关设备，以提升语义地图的定位精度。

为实现上述目的，本申请实施例提供如下技术方案。

第一方面，本申请实施例提供一种语义地图构建方法，包括：

获取道路图像帧；

提取所述道路图像帧的语义视觉特征，所述语义视觉特征为所述道路图像帧中道路元素的特征信息；

确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系；

至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息；

至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图。

第二方面，本申请实施例提供一种视觉定位方法，包括：

获取当前道路图像帧以及车辆的当前地理位置；

根据所述当前地理位置，从语义地图中获取相匹配的当前地图数据；以及，从所述当前道路图像帧中提取当前语义视觉特征；

从所述当前地图数据中至少获取与所述当前语义视觉特征匹配的空间位置信息，以得到所述当前语义视觉特征的初始空间位置信息；

根据所述初始空间位置信息，确定所述当前语义视觉特征的当前空间位置信息。

第三方面，本申请实施例提供一种语义地图构建设备，包括：至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行如上述第一方面所述的语义地图构建方法。

第四方面，本申请实施例提供一种车载设备，包括：至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行如上述第二方面所述的视觉定位方法。

第五方面，本申请实施例提供一种存储介质，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令被执行时实现如上述第一方面所述的语义地图构建方法，或者，如上述第二方面所述的视觉定位方法。

本申请实施例提供的语义地图构建方法可获取道路图像帧；提取所述道路图像帧的语义视觉特征，所述语义视觉特征为所述道路图像帧中道路元素的特征信息；确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系；至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息；至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图。由于两帧道路图像帧中的语义视觉特征在三维空间的关联关系，可以表示出道路元素的特征信息在三维空间中随车辆行驶的变化关系，因此基于所述关联关系来确定道路图像帧的语义视觉特征的空间位置信息，可使得语义视觉特征的空间位置信息在确定时能够结合上道路元素随车辆行驶的变化关系，从而更为准确的得到道路图像帧中的语义视觉特征在三维空间的空间位置信息。进而，基于准确得到的语义视觉特征的空间位置信息再构建语义地图，可提升语义地图的定位精度，为实现精确的车辆视觉定位提供了可能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为构建语义地图的系统架构图。

图2为本申请实施例提供的语义地图构建方法的流程图。

图3为本申请实施例提供的语义地图的构建过程的阶段示意图。

图4为本申请实施例提供的帧间道路元素匹配的实现流程图。

图5为本申请实施例提供的视觉定位方法的流程图。

图6为本申请实施例提供的视觉定位过程的阶段示意图。

图7为本申请实施例提供的语义地图构建装置的框图。

图8为本申请实施例提供的语义地图构建设备的框图。

图9为本申请实施例提供的视觉定位装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语义地图作为一种地图数据，可基于道路上行驶的采集车采集的信息进行构建。采集车采集的信息可以是采集车上设置的多传感器采集的信息，例如视觉传感器、地理定位传感器、惯性导航传感器等多传感器采集的信息。在一些实施例中，如果采集车具有较强的计算资源，采集车可基于采集的信息自行构建语义地图，并将构建的语义地图上传到云端进行存储。在另一些实施例中，采集车也可将采集的信息上传到云端服务器，由云端服务器基于采集车采集的信息构建语义地图并在云端存储。

图1示例性的示出了构建语义地图的系统架构。如图1所示，该系统可以包括：采集车100和云端200。采集车100可设置视觉传感器110、地理定位传感器120和惯性导航传感器130。在进一步的一些实施例中，采集车100还可设置用于数据计算、数据处理的处理器芯片。云端200可以包括云端服务器210和云端数据库220。如果由云端基于采集车100采集的信息构建语义地图，则可具体由云端服务器210执行语义地图的构建过程。云端数据库220可存储云端服务器构建的语义地图或者采集车自行构建的语义地图。

在本申请实施例中，视觉传感器110可用于在车辆行驶过程中采集道路图像。视觉传感器110采集的道路图像可以包括多个道路图像帧。在一些实施例中，视觉传感器110可以包括车载相机。例如，单目相机。

地理定位传感器120可用于在车辆行驶过程中定位车辆的地理位置(例如车辆的经纬度坐标)。在一些实施例中，地理定位传感器120可以包括GPS(Global PositioningSystem，全球定位系统)定位装置。当然，地理定位传感器120也可支持其他定位手段而不限于GPS定位手段，例如基于北斗卫星的定位手段等。

惯性导航传感器130可用于在车辆行驶过程中确定位姿信息。在一些实施例中，惯性导航传感器130可以包括IMU(Inertial measurement unit，惯性导航元件)。IMU包括三个单轴的加速度计和三个单轴的陀螺，加速度计检测物体在载体坐标系统独立三轴的加速度信号，而陀螺检测载体相对于导航坐标系的角速度信号。IMU通过测量物体在三维空间中的角速度和加速度，并以此解算出物体的位姿信息。

在一些实施例中，视觉传感器110、地理定位传感器120和惯性导航传感器130可集成在同一车载设备中。该车载设备例如行车记录仪等。当然，视觉传感器110、地理定位传感器120和惯性导航传感器130也可直接设置在车辆上。

作为一种可选实现，图2示例性的示出了本申请实施例提供的语义地图构建方法的可选流程。图2所示流程可由采集车执行实现，也可由云端服务器执行实现。如果由云端服务器构建语义地图，则云端服务器可获取车辆上的多传感器采集的信息(例如视觉传感器110采集的道路图像帧、地理定位传感器120确定的车辆的地理位置、惯性导航传感器130确定的位姿信息等)，并基于所获取的多传感器采集的信息构建语义地图。

需要说明的是，语义地图除具备传统的车辆地理位置匹配功能外，还需提供车辆所在道路的语义视觉特征(Semantic Visual Features)的空间位置信息，因此构建语义地图可在结合道路图像帧对应的地理位置、道路图像帧的语义视觉特征、语义视觉特征的空间位置信息的基础上实现。其中，语义视觉特征可以认为是道路图像帧中的道路元素在图像像素上的特征信息。

参照图2所示，该流程可以包括如下步骤。

在步骤S210中，获取道路图像帧。

所述道路图像帧可由车辆的视觉传感器110(例如单目相机)提供。在一些实施例中，步骤S210所获取的道路图像帧可以是关键道路图像帧。关键道路图像帧可以是视觉传感器110采集的图像质量较高的道路图像帧，例如，本申请实施例可将图像质量高于预设图像质量的道路图像帧作为关键道路图像帧。在一些实施例中，本申请实施例可使用基于ORB(Oriented FAST and Rotated BRIEF，快速导向与简要旋转)特征点的稀疏SLAM(simultaneous localization and mapping，同步定位与建图)算法模型，来从视觉传感器110采集的道路图像帧中筛选关键道路图像帧。当然，本申请实施例也可支持步骤S210所获取的道路图像帧为视觉传感器110采集的任意帧的道路图像帧。

在步骤S211中，提取所述道路图像帧的语义视觉特征。

针对步骤S210中获取的各帧的道路图像帧，本申请实施例可提取道路图像帧中道路元素的特征信息，从而得到道路图像帧的语义视觉特征。在一些实施例中，所述道路元素可以是道路中的标准道路元素。标准道路元素可以包括标准地面元素以及标准路旁元素。标准地面元素是指在道路的地面起到交通标识作用的道路元素，例如道路中的车道线、地面标志(例如地面的行驶方向标志、限速标志、专用车道标志等)等。标准路旁元素可以包括道路旁的路杆(例如，路灯杆、交通指示杆)等。需要说明的是，步骤S211中提取的语义视觉特征并不限于是标准道路元素的特征信息，语义视觉特征也可以涵盖道路上的其他道路元素(例如十字路口、人行天桥等)。

在一些实施例中，所述语义视觉特征可以至少包括道路元素的骨架，道路元素的骨架可以表示道路元素的轮廓。在进一步的一些实施例中，所述语义视觉特征还可以包括表示道路元素关键结构的结构关键点。

在可选实现中，由于道路元素的类型众多(例如车道线、地面标志、路杆等众多不同类型的道路元素)，为识别检测这些众多类型的道路元素，本申请实施例可利用多任务卷积神经网络基于CenterNet(中心网络)算法，来从道路图像帧中提取语义视觉特征。例如，本申请实施例可利用多任务卷积神经网络基于中心网络算法，提取道路图像帧中道路元素的骨架和表示关键结构的结构关键点。该多任务卷积神经网络可通过不同的顶部输出层，来支持对不同类型的道路元素提取特征信息。

在步骤S212中，确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系。

在步骤S213中，至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息。

在步骤S211提取了道路图像帧的语义视觉特征之后，本申请实施例需进一步确定道路图像帧的语义视觉特征的空间位置信息，以便构建语义地图。为准确获得语义视觉特征的空间位置信息，以便构建较高精度的语义地图，本申请实施例可先分析两帧道路图像帧中的语义视觉特征在三维空间的关联关系。由于车辆行驶过程中，视觉传感器110处于不断采集道路图像帧的状态，因此两帧道路图像帧中的语义视觉特征在三维空间的关联关系可以表达出，道路元素的特征信息在三维空间中随车辆行驶的变化关系，从而准确的反映出道路图像帧中的道路元素随车辆行驶的连续变化情况。进而，本申请实施例再基于所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息，可在确定语义视觉特征的空间位置信息时结合上道路元素随车辆行驶的变化关系，从而更为准确的得到道路图像帧中语义视觉特征在三维空间的空间位置信息。

在一些实施例中，由于步骤S211提取的道路图像帧的语义视觉特征处于二维空间的状态，因此在步骤S212的可选实现中，本申请实施例可将道路图像帧的语义视觉特征逆投影到三维空间中；然后再基于两帧道路图像帧对应的图像采集时间点之间的位姿信息(即，惯性导航传感器130在两帧道路图像帧的图像采集时间点之间所采集的位姿信息)，获取到两帧道路图像帧的语义视觉特征在三维空间的相对位姿变换；进而，再基于该相对位姿变换，确定出两帧道路图像帧的语义视觉特征在三维空间的关联关系。在更为具体的一些实施例中，所述两帧道路图像帧可以是相邻的两帧道路图像帧。例如，相邻的两帧关键道路图像帧，即视觉传感器连续检测的相邻的两帧关键道路图像帧。

在一些实施例中，基于步骤S212确定的关联关系，本申请实施例可利用非线性优化方法，对两帧道路图像帧中存在关联关系的语义视觉特征进行空间位置信息的联立求解，从而得到道路图像帧中语义视觉特征的空间位置信息。

在步骤S214中，至少基于所述道路图像帧对应的地理位置、所述道路图像帧的语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图。

基于步骤S211所提取的道路图像帧中的语义视觉特征，以及步骤S213所确定的道路图像帧的语义视觉特征的空间位置信息，本申请实施例可将道路图像帧中的语义视觉特征，语义视觉特征的空间位置信息与道路图像帧对应的地理位置进行关联，从而得到语义地图。所得到的语义地图既具备车辆地理位置匹配的功能，又可提供车辆所在道路的语义视觉特征的空间位置信息，为车辆的视觉定位提供基础。在一些实施例中，道路图像帧对应的地理位置可以认为是采集道路图像帧时的地理位置，可由地理定位传感器120提供。

在进一步的一些实施例中，由于采集车在采集建图数据时(即采集车的多传感器在采集信息时)，偶尔会反复经过同一道路，因此需要对同一道路上重复检测到的道路元素以及道路元素的相关信息进行合并。基于此，在一些实施例中，本申请实施例在执行步骤S213之后，可将多帧道路图像帧中相同的语义视觉特征进行合并，进而在合并相同的语义视觉特征之后，再执行步骤S214。在另一些实施例中，本申请实施例在执行步骤S213之后，可将多帧道路图像帧中相同的语义视觉特征进行合并，进而在合并相同的语义视觉特征之后，再次确定道路图像帧的语义视觉特征的空间位置信息，以进一步提升道路图像帧的语义视觉特征的空间位置信息的质量，然后再执行步骤S214。本申请实施例通过合并多帧道路图像帧中相同的语义视觉特征，可剔除语义地图中的冗余特征，起到减小语义地图的数据量，增加道路图像帧和语义地图之间特征匹配的命中率和复用率的效果。在一些实施例中，本申请实施例可基于级联式贪心算法，对多帧道路图像帧中的语义视觉特征的空间位置信息进行匹配，进而再通过并查集算法，将多帧道路图像帧中空间位置的间距较近(例如间距小于预设间距)且相同的语义视觉特征进行合并。

作为更为具体的可选实现，图3示出了本申请实施例提供的语义地图的构建过程的阶段示意图。本申请实施例可通过图3所示的阶段构建出语义地图。需要说明的是，无论是由采集车自行构建语义地图还是由云端服务器构建语义地图，语义地图的构建过程均可以包括图3所示的阶段。

如图3所示，语义地图构建过程的阶段包括：关键帧确定阶段310、道路元素级联检测阶段320、帧间道路元素匹配阶段330、状态估计优化建图阶段340、重复道路元素合并阶段350、和语义地图得到阶段360。下面将分别对各个阶段需要实现的内容进行说明。

在关键帧确定阶段310，本申请实施例可从视觉传感器110采集的多个道路图像帧中确定关键道路图像帧。在一些实施例中，关键道路图像帧可以是视觉传感器110采集的图像质量较高的道路图像帧，例如，图像质量高于预设图像质量的道路图像帧作为关键道路图像帧。

在另一些实施例中，关键道路图像帧可以是用户感兴趣的道路对应的道路图像帧。例如，用户偏好道路的道路图像帧，或者旅游景点的道路图像帧等。本申请实施例基于用户感兴趣的道路对应的道路图像帧，构建语义地图，可使得语义地图可提供用户感兴趣的道路中的语义视觉特征的一些空间位置信息，从而更为便于用户在所感兴趣的道路中进行辅助驾驶、自动驾驶。

在进一步的一些实施例中，由于后续构建语义地图的过程主要是基于关键道路图像帧中的道路元素实现，因此本申请实施例可先将关键道路图像帧中的非道路元素进行过滤(例如，将关键道路图像帧中的天空、山峦等背景进行过滤)，再进入后续阶段，以减少后续阶段的数据处理量。

在道路元素级联检测阶段320，针对各个单帧的关键道路图像帧，本申请实施例可提取关键道路图像帧的语义视觉特征，即提取关键道路图像帧中道路元素的特征信息。在一些实施例中，所述语义视觉特征可以是标准道路元素的特征信息。在一些实施例中，道路元素的特征信息可以至少包括道路元素的骨架。在进一步的一些实施例中，道路元素的特征信息还可以包括表示道路元素关键结构的结构关键点。下面以标准道路元素分为车道线、地面标志、路杆这三类为例，对语义视觉特征的提取过程进行说明。

针对地面标志、路杆，本申请实施例提供的道路元素的特征信息可以包括骨架以及代表关键结构的结构关键点。在一些实施例中，本申请实施例可确定地面标志、路杆的包围盒(例如，2D Bounding Box)，将该包围盒作为地面标志、路杆的特征信息中的骨架。同时，本申请实施例可确定地面标志、路杆中一些能够代表结构的结构关键点(例如，路杆的杆头点，地面标志的连接点、多边形顶点等)。

针对车道线，由于采样点可表示车道线，本申请实施例对于每一条车道线，可使用两组采样点分别表示车道线的左轮廓和右轮廓。所述两组采样点可作为车道线的特征信息中的骨架。

进一步的，由于虚拟车道线存在特殊之处，本申请实施例针对虚拟车道线，还需确定虚拟车道线中代表结构的结构关键点(例如，虚线车道线的顶点)。在一些实施例中，本申请实施例可在确定车道线的骨架之后，对于虚线车道线，进一步使用滑动窗口，分别沿虚线车道线的左轮廓和右轮廓进行滑动，以检测出虚线车道线的顶点(即虚线车道线的角点)。该滑动窗口的规格本申请实施例并不设限。

需要解释的是，考虑到稀疏性和地图构建效率，城市道路上的标准道路元素适合检测并作为语义地标进行建模，这里的考虑主要是：道路旁的路杆和交通标志可以被正面摄像头捕捉；地面标志虽然有时会被车辆遮挡，但地面面积占据了每帧道路图像帧的近一半面积，因此地面标志并不可忽视；与地面标志类似，车道线也适于检测并作为语义地标进行建模。上述这些特性能够使得标准道路元素在保持有效性的同时，为减少语义地图的大小提供可能。除了上述说明的标准道路元素外，还有一些道路元素也值得考虑，例如十字路口、人行天桥和建筑物天际线，但它们要么不是标准化的检测方法，要么是容易导致关联的歧义。因此，以车道线、地面标志、路杆作为标准道路元素提取特征信息，是本申请实施例较佳的选择。当然，本申请实施例也可支持其他形式的标准道路元素。另外，虽然提取非标准道路元素的特征信息存在一定的问题，但这并不影响本申请实施例的实质效果，因此本申请实施例并不限于仅提取道路上的标准道路元素的特征信息，对于道路上的其他道路元素(例如十字路口、人行天桥等)，本申请实施例也可支持提取特征信息。在一些实施例中，道路元素级联检测阶段320所检测的语义视觉特征也可基于用户整体习惯设置，例如，重点检测用户整体关注的道路元素的特征信息。

在一些实施例中，本申请实施例可利用多任务卷积神经网络基于CenterNet(中心网络)算法，来在道路元素级联检测阶段320提取关键道路图像帧的语义视觉特征。如果是实现车道线、地面标志、路杆的特征信息的提取，本申请实施例可通过多任务卷积神经网络不同的顶部输出层，来支持对这三类标准道路元素的检测和特征信息的提取。

在可选实现中，多任务卷积神经网络可首先执行实例级的检测，以针对地面标志、路杆，获得包含结构关键点的包围盒(包围盒可以是二维状态)，以及针对车道线获得车道轮廓(例如车道线左轮廓和右轮廓)作为骨架。然后，对于检测到的虚线车道线，多任务卷积神经网络可利用包含候选虚线角点的滑动窗口来提取虚线车道线的顶点，以得到虚线车道线的结构关键点。在上述特征信息的提取的过程中，为了减少在特征信息提取等可共享过程上的重复计算，本申请实施例可基于CenterNet算法，将多任务卷积神经网络中低层级的特征提取过程与顶层级的顶部输出层分离开来，使这些顶部输出层适应不同类型的道路元素。在一些实施例中，本申请实施例可使用DLA(Deep Layer Aggregation，深层聚合)和DCN(Deep Layer Aggregation，可变形卷积)模块作为特征信息提取的主干，然后经过反褶积后，得到了适应不同的任务(即不同类型的道路元素)的顶部输出层的下采样特征图。

在一些实施例中，上述多任务卷积神经网络作为深度学习模型结构，可使用标注工具平台进行标注和有监督学习训练；相比于输入数据的标注，使用标注工具平台进行标注和有监督学习训练，能将关键道路图像帧的像素点检测误差的中位数控制在2个像素以内。

在帧间道路元素匹配阶段330，本申请实施例可确定两帧关键道路图像帧的语义视觉特征在三维空间的关联关系。可以理解的是，随着车辆的行驶，视觉传感器110采集的关键道路图像帧中的道路元素是处于动态变化之中，而关键道路图像帧之间的道路元素的变化是存在连续关系的，例如，一条车道线的顶点是随着车辆的行驶不断的靠近车辆，然后消失在车辆视野中。因此，本申请实施例在道路元素级联检测阶段320提取了关键道路图像帧中道路元素的特征信息(即语义视觉特征)之后，可进一步在帧间道路元素匹配阶段330确定两帧关键道路图像帧中的道路元素的特征信息在三维空间的关联关系，以体现出道路元素的特征信息随车辆行驶的变化关系。

在一种可选实现中，图4示出了本申请实施例提供的帧间道路元素匹配的可选实现流程图。如图4所示，该流程可以包括如下步骤。

在步骤S410中，获取第一道路图像帧对应的第一语义视觉特征，以及第二道路图像帧对应的第二语义视觉特征。

第一道路图像帧和第二道路图像帧可以是两帧道路图像帧。例如，关键帧确定阶段210确定的两帧关键道路图像帧。在一些实施例中，第一道路图像帧和第二道路图像帧可以是相邻的两帧道路图像帧，例如相邻的两帧关键道路图像帧。为便于说明，本申请实施例可将第一道路图像帧对应的语义视觉特征称为第一语义视觉特征，将第二道路图像帧对应的语义视觉特征称为第二语义视觉特征。

在步骤S411中，分别将第一语义视觉特征和第二语义视觉特征逆投影到三维空间中。

在一些实施例中，本申请实施例可根据地平面参数和视觉传感器110的相对姿态，将第一道路图像帧对应的第一语义视觉特征，以及第二道路图像帧对应的第二语义视觉特征分别逆投影到三维空间中，从而获得第一语义视觉特征和第二语义视觉特征在三维空间的逆投影信息。可以理解的是，道路元素级联检测阶段320提取的第一语义视觉特征和第二语义视觉特征为二维空间状态，步骤S411通过将二维空间状态的第一语义视觉特征和第二语义视觉特征逆投影到三维空间，可以为后续确定第一语义视觉特征和第二语义视觉特征在三维空间的关联关系提供基础。

在步骤S412中，基于第一道路图像帧和第二道路图像帧的图像采集时间点之间的位姿信息，获取第一语义视觉特征和第二语义视觉特征在三维空间的相对位姿变换。

在一些实施例中，本申请实施例可获取惯性导航传感器130在第一道路图像帧和第二道路图像帧的图像采集时间点之间所采集的位姿信息，然后基于该位姿信息，确定第一语义视觉特征和第二语义视觉特征在三维空间的相对位姿变换。可以理解的是，在车辆行驶过程中，惯性导航传感器130处于不断采集位姿信息的状态，在将第一语义视觉特征和第二语义视觉特征逆投影到三维空间之后，为获得第一语义视觉特征和第二语义视觉特征在三维空间的位姿关系，本申请实施例可借助第一道路图像帧和第二道路图像帧的图像采集时间点之间的位姿信息来实现，即通过第一道路图像帧和第二道路图像帧的图像采集时间点之间的位姿信息，来确定第一语义视觉特征和第二语义视觉特征在三维空间的相对位姿变换。

在步骤S413中，基于所述相对位姿变换，确定第一语义视觉特征和第二语义视觉特征在三维空间的关联关系。

所述相对位姿变换表示了随着车辆行驶，第一道路图像帧和第二道路图像帧的道路元素的特征信息在相对位姿上的变换关系，因此本申请实施例可基于所述相对位姿变换，确定出第一道路图像帧对应的第一语义视觉特征和第二道路图像帧对应的第二语义视觉特征在三维空间的关联关系。在一些实施例中，本申请实施例可基于所述相对位姿变换，使用贪心匹配算法将第一语义视觉特征和第二语义视觉特征在三维空间进行关联，从而得到第一语义视觉特征和第二语义视觉特征在三维空间的关联关系。贪心匹配算法(又称贪婪算法)是指，在对问题求解时，总是做出在当前看来是较佳的选择，也就是说，不从整体较佳上加以考虑，算法得到的是在某种意义上的局部较佳解。

需要说明的是，针对任意两帧关键道路图像帧，本申请实施例可通过图3所示流程，确定出两帧关键道路图像帧的道路元素的特征信息在三维空间的关联关系。

在帧间道路元素匹配阶段330的一些更为具体的实现中，给定两帧连续检测到的关键道路图像帧，本申请实施例可借助惯性导航传感器130(例如IMU)来积累该两帧关键道路图像帧之间的相对位姿变换。对于地面道路元素(例如地面标志和车道线)，本申请实施例可先在视觉传感器的坐标系(例如相机坐标系)中进行光线地面交叉，为地面道路元素的每个语义关键点、框顶点和车道线样本点获得一个粗糙的三维位置，以实现将两帧关键道路图像帧中的语义视觉特征分别逆投影到三维空间中。然后，我们使用贪心匹配算法将逆投影到三维空间中的语义视觉特征在像素空间中进行关联：将三维空间中一帧关键道路图像帧的语义视觉特征重新投影到另一帧关键道路图像帧，然后计算两帧关键道路图像帧中的语义视觉特征在并集上的相交；在确定两帧关键道路图像帧中的语义视觉特征在并集上相交的情况下，本申请实施例可实现建立实例匹配，从而本申请实施例进一步考虑对实例匹配进行重新投影的内实例匹配。在实例匹配和内实例匹配中，并集中像素百分比小于50％或像素距离大于5.0像素的特征信息将被忽略。

需要说明的是，对于语义视觉特征中的顶点等结构关键点，本申请实施例可使用光流方法在关键道路图像帧之间进行特征信息的跟踪。在特征信息的跟踪过程中，本申请实施例保留了由GFTT提取器和异常描述符提取、描述和跟踪的经典关键点，因为它们不仅是视觉惯性测距的一部分，而且是值得包含在结构化对象中的稳定跟踪的特征点。与输出掩模的分割不同，本申请实施例检测到的道路元素的包围盒可能包含来自背景区域的GFTT特征关键点，特别是在顶点的实例中。

在状态估计优化建图阶段340，本申请实施例可对两帧关键道路图像帧中存在关联关系的语义视觉特征进行空间位置信息的联立求解，以获得关键道路图像帧的语义视觉特征的空间位置信息。

在一些实施例中，所述语义视觉特征的空间位置信息可以包括如下至少一项：地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置、表征地面道路元素的三维平面空间位置的系数、视觉传感器的坐标系下地平面空间的位置系数、车道线的关联系数、道路图像帧的位姿(例如关键道路图像帧的位姿)。下面将对上述类型的空间位置信息分别进行说明。

在一些实施例中，针对道路的车道线，四个连续的采样点将确定两个中间采样点之间的形状。例如，假设4点连续的采样点为C_k-1、C_k、C_k+1和C_k+2，则两个中间采样点C_k和C_k+1之间的形状可表示为C(t’)，且C(t’)可由如下公式表示：

其中，t’∈[0，1]；τ＝0.5，描述了车道线在采样点处弯曲的形状。在车道线的两边，第一个和最后一个采样点总是偏离车道线，用于调整其端点的方向。可以看出，本申请实施例可在状态估计优化建图阶段340，对常规路面的车道线使用分段三次Catmull-Rom样条曲线进行拟合，以确定出车道线曲线的形状。

在一些实施例中，本申请实施例在状态估计优化建图阶段340可引入了五种可优化的变量。

1)本申请实施例可从关键道路图像帧中的地面道路元素和地面道路元素的角点中，检测到表示结构的结构关键点的三维空间位置。本申请实施例可使用逆深度参数化方案来优化这些结构关键点的三维空间位置。

2)视觉传感器的坐标系下的地面系数，即视觉传感器的坐标系下地平面空间的位置系数。本申请实施例可将每一帧关键道路图像帧中，地面的可观测区域近似为一个平面，并使用如下公式进行表示：

基于上述表示，本申请实施例可在状态估计优化建图阶段340，对视觉传感器的坐标系下的地面系数进行优化，以支持地面信息的在线校准。其中，θ∈[0，π]，

d∈R3，R3表示采样点的集合。

3)表征地面道路元素的三维平面空间位置的系数，即全局坐标中的垂直平面，其可使用如下公式进行表示：

上述公式可以视为是对象α在初始化视觉惯性测程后，其Z轴与重力方向水平。α∈[0,2π]，e∈R3。

4)车道线的采样点的三维空间位置，其描绘了道路车道线的左轮廓或右轮廓。

5)车道线的关联系数，也可称为是动态关联参数，用于将采样点和角点与关键道路图像帧中检测到的车道线进行关联。

在进一步的一些实施例中，本申请实施例可优化的变量还可以包括：关键道路图像帧的位姿。

作为可选实现，本申请实施例对于检测到的语义视觉特征，可在状态估计优化建图阶段340提供三种约束类型，包括：

1)道路元素中结构关键点的重投影约束，也称为点观测因素。本申请实施例可基于如下公式对道路元素中的结构关键点进行三角化和参数化：

其中，p_aci是检测到的结构关键点对应的像素的位置，π(·)是相机投影操作符，T_c是关键道路图像帧c的位姿，

是分配的噪声协方差，表示检测到的采样点和角点的精度。

2)车道线的重投影约束，也称为车道线观测因子。本申请实施例可基于如下公式进行约束，以通过一个显式的关联参数，动态地关联采样点和结构关键点p_aci，以作为车道线Ca的测量值：

其中，t_aci是引入的联合优化的动态关联参数，

类似于

表示检测到的采样点和角点的精度。

3)道路元素中结构关键点的共面约束，也称为共平面先验因子。在一些实施例中，根据地面道路元素的厚度或噪声协方差，本申请实施例可假设这些观察到的车道线在每个相机视图中是局部平面的，具有一致的系数。

基于上述描述的可优化的变量以及约束类型，在状态估计优化建图阶段340，本申请实施例可基于可优化的变量的顺序，初始化上述可优化的变量。在一些实施例中，给定关键道路图像帧，本申请实施例可从估计的关键道路图像帧的位姿中，三角化关键道路图像帧的道路元素的结构关键点。然后，对于垂直的地面道路元素，本申请实施例使用其深度的特征点在XOY平面上进行线拟合，以获得V_a(α，e)，即表征地面道路元素的三维平面空间位置的系数；同时，使用厚度标准|V_a(α，e)·P_ai|<σ1＝0.3米，接受那些成功三角化的结构关键点所提取的像素位置到检测的包围盒内。本申请实施例将这些成功三角化的结构关键点包含在包围盒内，因为这些结构关键点通常会被稳定地检测到，并且可以提供有用的几何约束。

在一些实施例中，本申请实施例在得到三角化的结构关键点后，可将这些结构关键点的点集匹配三维平面来获取相机坐标中的系数，即视觉传感器的坐标系下的地面系数G(θ、φ、d)。如果在初始化过程中没有发现地面标志，本申请实施例可使用在每一关键道路图像帧上检测到的车道凸壳对应的特征点，并选择使用三维平面拟合策略来去除移动车辆上的车道凸壳对应的特征点。

针对车道线的初始化，本申请实施例可对常规路面的车道线的采样点，使用随机抽样检测一致算法，来初始化车道线的采样点。在这个过程中，本申请实施例可考虑车道线的采样点的曲线拟合的三维残余，然后通过一个正则化项，以确保这些采样点的均匀采样。

在一些实施例中，本申请实施例可在状态估计优化建图阶段340，对常规路面的车道线进行重投影约束，以显式地使用车道线的关联系数进行构建和优化，该类车道线关联系数的初始化首先运用空间三维距离函数的导函数求解驻点，再进行独立非线性优化而完成。

在重复道路元素合并阶段350，本申请实施例可将同一道路上重复地检测到的语义视觉特征进行合并。可以理解的是，采集车在采集建图数据时，偶尔会反复经过同一路段，所以需要对同一道路上重复地检测到的语义视觉特征进行合并。本申请实施例可基于级联式贪心匹配的方法，对多帧关键道路图像帧中的语义视觉特征的空间位置信息进行匹配，通过并查集算法将间距较近且被检测为相同的语义视觉特征进行合并。然后，再在每个语义视觉特征之内，进行子结构的匹配，保证每一个语义视觉特征中的特征点形成正确关联。最后，重新执行状态估计优化建图阶段340进行第二轮离线非线性优化，提升语义地图中语义视觉特征的空间位置信息的质量。

在语义地图得到阶段360，本申请实施例可结合关键道路图像帧的语义视觉特征、语义视觉特征的空间位置信息以及关键道路图像帧的地理位置，得到语义地图。例如，在重复语义视觉特征的合并后，本申请实施例可将上述被优化的关键道路图像帧的位姿、语义特征的空间位置信息以及关键道路图像帧的地理位置等状态量进行存储，形成语义地图，以供车辆在线视觉定位时进行使用。

需要说明的是，本申请实施例提供的语义地图的构建过程并不限于基于关键道路图像帧来实现，而是可基于视觉传感器采集的任意的道路图像帧来实现。

本申请实施例提供的语义地图的构建方案，可结合道路元素随车辆行驶的变化关系，更为准确的确定道路图像帧中的语义视觉特征在三维空间的空间位置信息；并且，能够剔除语义地图中的冗余语义视觉特征，增加图像和语义地图之间特征匹配的命中率和复用率，降低语义地图的存储数据量。因此本申请实施例提供的语义地图的构建方案，能够在减少语义地图数据量的同时，提升语义地图的定位精度。本申请实施例提供的语义地图构建方案需要使用的传感器可以例如单目相机，全球卫星定位系统(GPS)接收机和惯性导航元件(IMU)等，且能在常规嵌入式平台，例如NVIDIA TX2上部署使用。

基于前述构建的语义地图，本申请实施例可在车辆行驶过程中，实现车辆精确的视觉定位，从而为车辆的辅助驾驶、自动驾驶提供决策依据。作为一种可选实现，图5示出了本申请实施例提供的视觉定位方法的可选流程。图5所示方法可由车载设备执行。该车载设备可以是在车辆上放置的用户设备(例如，行车记录仪、用户手机等)，也可以是车辆的内置设备。车载设备或者车辆可以至少设置如图1所示的视觉传感器和地理定位传感器，以用于在车辆行驶过程中采集道路图像和定位车辆的地理位置。在进一步的可选实现中，车载设备或者车辆还可以设置惯性导航传感器，以在车辆行驶过程中采集位姿信息。

如图5所示，该流程可以包括如下步骤。

在步骤S510中，获取当前道路图像帧以及车辆的当前地理位置。

在车辆行驶过程中，视觉传感器可以采集道路图像并且地理定位传感器可以定位车辆的地理位置。视觉传感器采集的道路图像可以包括多帧道路图像帧。在当前时刻进行车辆的视觉定位时，视觉传感器在当前时刻采集的道路图像帧可称为当前道路图像帧，地理定位传感器在当前时刻定位的车辆的地理位置可称为当前地理位置。

在一些实施例中，当前道路图像帧可以是关键道路图像帧的形式。当然，当前道路图像帧也可不限于是关键道路图像帧。在另一些实施例中，当前道路图像帧可以是用户感兴趣的道路对应的当前道路图像帧。例如，用户偏好道路的当前道路图像帧，或者旅游景点的当前道路图像帧等。

在进一步的一些实施例中，本申请实施例可过滤当前道路图像帧中的背景信息，然后再进入后续步骤。在其他可能的实现中，当前道路图像帧中需要过滤的信息也可由用户设置，例如提供设置页面，该设置页面可支持用户设置不关注的图像信息，以便本申请实施例过滤当前道路图像帧中的用户不关注的图像信息之后，再进入后续步骤。

在步骤S511中，根据所述当前地理位置，从语义地图中获取相匹配的当前地图数据。

在一些实施例中，基于前文描述的语义地图构建方法构建语义地图后，语义地图可在云端进行存储并且按照地理位置范围进行分块。例如，语义地图可以包括多个地图分块，一个地图分块对应一个地理位置范围。一个地图分块可以包括对应的地理位置范围中道路的语义视觉特征，语义视觉特征的空间位置信息等数据。

本申请实施例在获取车辆的当前地理位置后，可从云端请求与当前地理位置相匹配的当前地图分块(当前地图分块可以认为是当前地图数据的一种可选形式)。在一些实施例中，云端获取到车载设备的请求后，可确定与当前地理位置匹配的地理位置范围，从而将该地理位置范围对应的地图分块作为当前地图分块，并反馈回车载设备。

在步骤S512中，从所述当前道路图像帧中提取当前语义视觉特征。

针对步骤S510中获取的当前道路图像帧，本申请实施例可提取当前道路图像帧中的语义视觉特征，为便于说明，当前道路图像帧中的语义视觉特征可称为当前语义视觉特征。从道路图像帧中提取语义视觉特征的具体实现方式可参照前文相应部分的描述，此处不再赘述。

在步骤S513中，从所述当前地图数据中至少获取与所述当前语义视觉特征匹配的空间位置信息，以得到所述当前语义视觉特征的初始空间位置信息。

在步骤S514中，根据所述初始空间位置信息，确定所述当前语义视觉特征的当前空间位置信息。

当前地图数据可以记录与当前地理位置相匹配的地理位置范围中道路的语义视觉特征，语义视觉特征的空间位置信息等数据。在步骤S512中提取了当前道路图像帧中的当前语义视觉特征后，本申请实施例可从当前地图数据中匹配出与当前语义视觉特征相应的空间位置信息，以实现对当前地图数据的检索，从而得到当前语义视觉特征的初始空间位置信息。由于车辆实际行驶的位置、角度、以及车辆的外形等与建图使用的采集车可能不同，因此从当前地图数据中匹配的当前语义视觉特征的空间位置信息，本申请实施例可作为是初始空间位置信息。本申请实施例可进一步对该初始空间位置信息进行优化，以得到精确的当前空间位置信息。在一些实施例中，如果语义视觉特征的空间位置信息包括如下信息：地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置、表征地面道路元素的三维平面空间位置的系数、视觉传感器的坐标系下地平面空间的位置系数、车道线的关联系数、关键道路图像帧的位姿；则地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置可作为语义地图中的常量进行设置，从而本申请实施例可从当前地图数据中匹配到作为常量的当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置，进而再进行建模求解，得到当前语义视觉特征的其他项空间位置信息，从而得到当前语义视觉特征的当前空间位置信息。

在一种可选实现中，图6示出了本申请实施例提供的视觉定位过程的阶段示意图。如图6所示，该视觉定位过程的阶段可以包括：当前关键帧确定阶段610、道路元素级联检测阶段620、地图分块加载阶段630，地图检索阶段640，状态估计在线定位阶段650。

在当前关键帧确定阶段610，本申请实施例可获取当前时刻的当前关键道路图像帧。进一步的，本申请实施例还可获取车辆的当前地理位置。

在道路元素级联检测阶段620，本申请实施例可从当前关键道路图像帧中提取当前语义视觉特征，即当前关键道路图像帧中道路元素的特征信息。

在地图分块加载阶段630，本申请实施例可基于车辆的当前地理位置，从云端获取到与当前地理位置相匹配的当前地图分块。例如，车载设备可通过GPS数据，查询存储在云端且经纬度空间位置最匹配的地图分块，并拉取到车载设备本地，用于进行当前关键道路图像帧的语义视觉特征和地图分块之间的匹配。

在地图检索阶段640，本申请实施例可基于当前语义视觉特征，对当前地图分块进行检索，匹配出当前语义视觉特征的初始空间位置信息。例如，从当前地图分块中匹配出，作为常量的当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置。在一些实施例中，对于运行中的车载设备，本申请实施例可利用嵌入式平台的计算能力进行一个低频的深度感知，基于这些稀疏检测得到的语义视觉特征，对当前地图分块进行检索。

在状态估计在线定位阶段650，本申请实施例可基于在地图检索阶段640获得的初始空间位置信息，求解得到当前语义视觉特征的当前空间位置信息。例如，将当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置作为常量，求解得到如下至少一项空间位置信息：当前语义视觉特征对应的表征地面道路元素的三维平面空间位置的系数、视觉传感器的坐标系下地平面空间的位置系数、车道线的关联系数、道路图像帧的位姿。

在一些实施例中，本申请实施例可支持由用户个性化配置进行视觉定位的道路、时间等条件。例如，车载设备可提供用户配置选项，用户可通过配置选项配置进行视觉定位的道路、时间等条件。不同用户的配置可能并不相同，从而实现基于用户个性化配置的视觉定位。

在一些实施例中，本申请实施例提供的视觉定位方案可以作为一种服务，安装在车载设备上，以使得用户更好的使用车辆的辅助驾驶、自动驾驶功能。该服务可由用户自主选择启用或者关闭，当启用该服务时，本申请实施例可提供服务相应的收费信息；在服务过程中，本申请实施例也可支持插播推荐信息(例如广告等)。

本申请实施例提供的视觉定位方案和语义地图构建方案，可以使用单目相机实现，而不依赖于宽基线双目相机的左右目匹配，和深度相机的距离感知信息。这使得本申请实施例可以直接用于行车记录仪等小型车载设备。本申请实施例提供的视觉定位方案和语义地图构建方案提高了建图和定位精度，可以使用较小的地图存储容量达成更高精度的视觉定位效果。本申请实施例形成了语义视觉特征感知、语义地图构建和视觉定位的技术闭环，可以使用检测式深度学习的结果构建语义地图和使用语义地图，并且可在语义地图构建过程中利用约束类型来实现不确定性估计，符合了极大似然估计法的设计准则，提升了语义地图的建图和定位质量。

上文描述了本申请实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本申请实施例披露、公开的实施例方案。

下面对本申请实施例提供的语义地图构建装置进行介绍。下文描述的装置内容可以认为是采集车或者云端服务器，为实现本申请实施例提供的语义地图构建方法，所需设置的功能模块。下文描述的装置内容可与上文描述内容相互对应参照。

在可选实现中，图7示出了本申请实施例提供的语义地图构建装置的可选框图。如图7所示，该装置可以包括：

图像帧获取模块710，用于获取道路图像帧；

特征提取模块711，用于提取所述道路图像帧的语义视觉特征，所述语义视觉特征为所述道路图像帧中道路元素的特征信息；

关联确定模块712，用于确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系；

空间位置确定模块713，用于至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息；

地图得到模块714，用于至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图。

在一些实施例中，所述两帧道路图像帧包括：第一道路图像帧和第二道路图像帧。关联确定模块712，用于确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系包括：

分别将第一道路图像帧对应的第一语义视觉特征和第二道路图像帧对应的第二语义视觉特征逆投影到三维空间中；

基于第一道路图像帧和第二道路图像帧的图像采集时间点之间的位姿信息，获取第一语义视觉特征和第二语义视觉特征在三维空间的相对位姿变换；

基于所述相对位姿变换，确定第一语义视觉特征和第二语义视觉特征在三维空间的关联关系。

在一些实施例中，空间位置确定模块713，用于至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息包括：

利用非线性优化方法，对两帧道路图像帧中存在关联关系的语义视觉特征进行空间位置信息的联立求解，以得到道路图像帧中语义视觉特征的空间位置信息。

在一些实施例中，所述语义视觉特征的空间位置信息包括如下至少一项：

地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置、表征地面道路元素的三维平面空间位置的系数、视觉传感器的坐标系下地平面空间的位置系数、车道线的关联系数、道路图像帧的位姿。

在一些实施例中，特征提取模块711，用于提取所述道路图像帧的语义视觉特征包括：

利用多任务卷积神经网络基于中心网络算法，提取所述道路图像帧中道路元素的骨架和表示关键结构的结构关键点；所述多任务卷积神经网络通过不同的顶部输出层，支持对不同类型的道路元素提取特征信息。

在进一步的一些实施例中，语义地图构建装置在至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图之前，还可用于：

将多帧道路图像帧中相同的语义视觉特征进行合并。

本申请实施例还提供一种语义地图构建设备，该语义地图构建设备可以是采集车中的计算处理设备，也可以是云端服务器。该语义地图构建设备可通过装载上述描述的语义地图构建装置，以执行本申请实施例提供的语义地图构建方法。作为一种可选实现，图8示出了本申请实施例提供的语义地图构建设备的框图。如图8所示，该语义地图构建设备可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4。

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。

可选的，通信接口2可以为用于进行网络通信的通信模块的接口。

可选的，处理器1可能是CPU(中央处理器)，GPU(Graphics Processing Unit，图形处理器)，NPU(嵌入式神经网络处理器)，FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)，TPU(张量处理单元)，AI芯片，特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路等。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储一条或多条计算机可执行指令，处理器1调用所述一条或多条计算机可执行指令，以执行本申请实施例提供的语义地图构建方法。

本申请实施例还提供一种存储介质，该存储介质可以存储一条或多条计算机可执行指令，该一条或多条计算机可执行指令被执行时，可实现本申请实施例提供的语义地图构建方法。

下面对本申请实施例提供的视觉定位装置进行介绍。下文描述的装置内容可以认为是车载设备，为实现本申请实施例提供的视觉定位方法，所需设置的功能模块。下文描述的装置内容可与上文描述内容相互对应参照。

图9示出了本申请实施例提供的视觉定位装置的框图。如图9所示，该装置可以包括：

信息获取模块910，用于获取当前道路图像帧以及车辆的当前地理位置；

地图数据获取模块911，用于根据所述当前地理位置，从语义地图中获取相匹配的当前地图数据；

语义特征提取模块912，用于从所述当前道路图像帧中提取当前语义视觉特征；

地图检索匹配模块913，用于从所述当前地图数据中至少获取与所述当前语义视觉特征匹配的空间位置信息，以得到所述当前语义视觉特征的初始空间位置信息；

当前空间位置确定模块914，用于根据所述初始空间位置信息，确定所述当前语义视觉特征的当前空间位置信息。

在一些实施例中，地图数据获取模块911，用于根据所述当前地理位置，从语义地图中获取相匹配的当前地图数据包括：

向云端请求与当前地理位置相匹配的当前地图分块；其中，所述语义地图按照地理位置范围划分为多个地图分块，一个地图分块具有相对应地理位置范围；

获取云端反馈的与当前地理位置匹配的地理位置范围对应的当前地图分块。

在一些实施例中，地图检索匹配模块913，用于从所述当前地图数据中至少获取与所述当前语义视觉特征匹配的空间位置信息，以得到所述当前语义视觉特征的初始空间位置信息包括：

从所述当前地图数据中获取与所述当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置。

在一些实施例中，当前空间位置确定模块914，用于根据所述初始空间位置信息，确定所述当前语义视觉特征的当前空间位置信息包括：

以所述当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置作为常量，求解得到如下至少一项空间位置信息：当前语义视觉特征对应的表征地面道路元素的三维平面空间位置的系数、视觉传感器的坐标系下地平面空间的位置系数、车道线的关联系数、道路图像帧的位姿。

本申请实施例还提供一种车载设备，该车载设备可通过装载上述描述的视觉定位装置，以实现本申请实施例提供的视觉定位方法。该车载设备的可选硬件框架可结合图8所示，包括：至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行本申请实施例提供的视觉定位方法。在进一步的一些实施例中，该车载设备还可以包括：视觉传感器、地理定位传感器、惯性导航传感器等传感器。

本申请实施例还提供一种存储介质，该存储介质可以存储一条或多条计算机可执行指令，该一条或多条计算机可执行指令被执行时，可实现本申请实施例提供的视觉定位方法。

虽然本申请实施例披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语义地图构建方法，其中，包括：

获取道路图像帧；

2.根据权利要求1所述语义地图构建方法，其中，所述两帧道路图像帧包括：第一道路图像帧和第二道路图像帧；所述确定两帧道路图像帧中的语义视觉特征在三维空间的关联关系包括：

3.根据权利要求1所述的语义地图构建方法，其中，所述至少根据所述关联关系确定所述道路图像帧的语义视觉特征的空间位置信息包括：

4.根据权利要求1或3所述的语义地图构建方法，其中，所述语义视觉特征的空间位置信息包括如下至少一项：

5.根据权利要求1所述的语义地图构建方法，其中，所述提取所述道路图像帧的语义视觉特征包括：

6.根据权利要求1所述的语义地图构建方法，其中，在至少基于所述道路图像帧对应的地理位置、语义视觉特征、所述语义视觉特征的空间位置信息，得到语义地图之前，所述方法还包括：

将多帧道路图像帧中相同的语义视觉特征进行合并。

7.一种视觉定位方法，其中，包括：

获取当前道路图像帧以及车辆的当前地理位置；

8.根据权利要求7所述的视觉定位方法，其中，所述根据所述当前地理位置，从语义地图中获取相匹配的当前地图数据包括：

向云端请求与当前地理位置相匹配的当前地图分块；其中，所述语义地图按照地理位置范围划分为多个地图分块，一个地图分块具有相对应的地理位置范围；

获取云端反馈的与当前地理位置匹配的地理位置范围相对应的当前地图分块。

9.根据权利要求7所述的视觉定位方法，其中，所述从所述当前地图数据中至少获取与所述当前语义视觉特征匹配的空间位置信息，以得到所述当前语义视觉特征的初始空间位置信息包括：

从所述当前地图数据中获取与所述当前语义视觉特征对应的地面道路元素的结构关键点的三维空间位置、车道线的采样点的三维空间位置；

所述根据所述初始空间位置信息，确定所述当前语义视觉特征的当前空间位置信息包括：

10.一种语义地图构建设备，其中，包括：至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行如权利要求1-6任一项所述的语义地图构建方法。

11.一种车载设备，其中，包括：至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行如权利要求7-9任一项所述的视觉定位方法。

12.一种存储介质，其中，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令被执行时实现如权利要求1-6任一项所述的语义地图构建方法，或者，如权利要求7-9任一项所述的视觉定位方法。