CN113326769A

CN113326769A - 高精地图生成方法、装置、设备及存储介质

Info

Publication number: CN113326769A
Application number: CN202110589941.3A
Authority: CN
Inventors: 任海兵; 程保山; 舒畅; 胡琦
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31
Anticipated expiration: 2041-05-28
Also published as: CN113326769B

Abstract

本申请实施例提供了一种高精地图生成方法、装置、设备及存储介质，属于计算机视觉技术领域。在生成高精地图时，先对目标视频进行初步处理，根据各个图像帧的特征点信息，对初始位姿进行位姿优化，以得到更加精确的目标位姿，最终结合深度信息得到稠密点云，从而生成目标视频对应的高精地图。采用上述方法能够基于一段目标视频来生成对应的高精地图，节省了人力物力，提高了高精地图生成效率，而且，上述方法得到的稠密点云精确度更高，从而大大提高了高精地图的精度。

Description

高精地图生成方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种高精地图生成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，人工智能设备得到广泛应用，给人们的生活和工作带来了极大便利，自动驾驶设备便是其中的一种。目前，自动驾驶设备往往需要依赖高精地图来实现行驶过程，这种高精地图能够以准确丰富的信息来描述道路，以便自动驾驶设备理解道路状况，从而基于道路状况来规划动作，实现行驶过程。因此，如何生成高精地图，是保证自动驾驶设备实现行驶过程的关键。

相关技术中，生成高精地图的方案通常是采用数据采集车进行地图数据的采集，之后，再根据采集到的地图数据来生成高精地图。然而，数据采集车往往价格昂贵，数量稀少，难以胜任大量的地图生成任务，而且这种方式需要耗费大量人力物力，导致地图数据的采集效率较低，从而降低了高精地图的生成效率。

发明内容

本申请实施例提供了一种高精地图生成方法、装置、设备及存储介质，能够提高地图生成效率和地图精度。该技术方案如下：

一方面，提供了一种高精地图生成方法，该方法包括：

基于目标视频中各个图像帧的特征点信息，对该各个图像帧的初始位姿进行位姿优化，得到该各个图像帧的目标位姿，该初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，该目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态；

基于该各个图像帧的深度信息以及该各个图像帧的目标位姿，获取该各个图像帧对应的稠密点云；

将该各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图；

提取该目标底图的语义信息，得到对应的地图元素，基于该目标底图和该地图元素，生成该目标视频对应的高精地图。

另一方面，提供了一种高精地图生成装置，该装置包括：

位姿优化模块，用于基于目标视频中各个图像帧的特征点信息，对该各个图像帧的初始位姿进行位姿优化，得到该各个图像帧的目标位姿，该初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，该目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态；

点云获取模块，用于基于该各个图像帧的深度信息以及该各个图像帧的目标位姿，获取该各个图像帧对应的稠密点云；

投影模块，用于将该各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图；

地图生成模块，用于提取该目标底图的语义信息，得到对应的地图元素，基于该目标底图和该地图元素，生成该目标视频对应的高精地图。

在一种可选地实现方式中，该点云获取模块用于：

基于该目标视频对应的多个地理坐标的采样时间以及该各个图像帧的采样时间，确定该各个图像帧对应的地理坐标；

基于该各个图像帧的目标位姿以及该各个图像帧对应的地理坐标，将该各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到该各个图像帧对应的稠密点云。

在一种可选地实现方式中，该点云获取模块用于：

基于该目标视频对应的多个地理坐标的采样时间以及该各个图像帧的采样时间，确定与该多个地理坐标分别处于同一时刻的多个图像帧集合，其中，一个图像帧集合对应一个地理坐标；

对于该多个图像帧集合中的任意一个图像帧集合，基于该图像帧集合对应的地理坐标，对该图像帧集合中的各个图像帧对应的地理坐标进行插值，得到该图像帧集合中各个图像帧对应的地理坐标。

在一种可选地实现方式中，该点云获取模块用于：

基于该各个图像帧的目标位姿和该各个图像帧对应的地理坐标，调用马尔可夫模型，将该各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到该各个图像帧对应的稠密点云；

其中，该马尔可夫模型是基于当前时刻的地理坐标与前一时刻的地理坐标之间的坐标差、当前时刻的图像帧与前一时刻的图像帧之间的位姿偏移量建立的，该位姿偏移量是基于当前时刻的图像帧与前一时刻的图像帧的目标位姿确定的。

另一方面，提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的高精地图生成方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如本申请实施例中高精地图生成方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的高精地图生成方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供了一种地图生成方法，在生成高精地图时，先对目标视频进行初步处理，根据各个图像帧的特征点信息，对初始位姿进行位姿优化，以得到更加精确的目标位姿，最终结合深度信息得到稠密点云，从而生成目标视频对应的高精地图。采用上述方法能够基于一段目标视频来生成对应的高精地图，节省了人力物力，提高了高精地图生成效率，而且，上述方法得到的稠密点云精确度更高，从而大大提高了高精地图的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种高精地图生成方法的实施环境示意图；

图2是根据本申请实施例提供的一种高精地图生成方法流程图；

图3是根据本申请实施例提供的另一种高精地图生成方法流程图；

图4是根据本申请实施例提供的一种获取深度信息和初始位姿的方法示意图；

图5是根据本申请实施例提供的一种高精地图生成装置的结构示意图；

图6是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。

这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一图像帧能够被称为第二图像帧，并且类似地，第二图像帧也能够被称为第一图像帧。第一图像帧和第二图像帧都可以是图像帧，并且在某些情况下，可以是单独且不同的图像帧。

其中，至少一个是指一个或一个以上，例如，至少一个图像帧可以是一个图像帧、两个图像帧、三个图像帧等任意大于等于一的整数个图像帧。而多个是指两个或者两个以上，例如，多个图像帧可以是两个图像帧、三个图像帧等任意大于等于二的整数个图像帧。

下面对本申请实施例提供的高精地图生成方案可能用到的关键术语或缩略语进行介绍。

图像帧的深度信息，例如，在图像帧的每个像素通过一组二进制数来进行描述的情况下，每个像素对应的二进制数中包含有多位表示颜色的二进制数，这些表示颜色的二进制数的位数，即称为深度信息。通常，一个图像帧对应的深度信息一般由相同大小的深度图来描述，其中，深度图是指，将从图像传感到三维场景中各点的距离作为像素值的图像，它直接反映了物体可见表面的几何形状。在本申请实施例中，图像帧为红绿蓝(Red GreenBlue，RGB)图像。

Deepv2d，一种基于深度学习的运动恢复结构算法，能够根据视频信息进行位姿估计和深度估计，得到相机采集对应图像帧时的位姿和该图像帧的深度信息。Deepv2d算法采用迭代更新的策略，交替优化图像帧的深度信息和图像帧的位姿估计，直到参数收敛，到达最优估计。

点云，是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，在获取物体表面每个采样点的空间坐标后，得到的是点的集合，称之为点云。不同设备获取到的点云内容不同，在本申请实施例中，点云的内容包括但不限于地理坐标、位姿信息、世界坐标系下的三维坐标、颜色信息以及深度信息等。

回环检测，也称闭环检测。位姿估计往往是一个递推的过程，即由上一帧的位姿解算当前帧的位姿，因此其中的误差便会一帧一帧的传递下去，也即累计误差。之所以用前一帧递推下一帧位姿，是因为这两帧足够近以至于能够建立两帧之间的约束，但是距离较远的两帧不一定能够建立这样的约束关系，找出可以建立这种位姿约束的历史帧的过程，就是回环检测。

光束法平差(Bundle Adjustment，BA)，一种参数优化方法，目的是最小化重投影误差。具体是指从视觉重建中提炼出最优的三维模型和相机参数(包括相机内参和相机外参)，在对相机位姿和特征点空间位置进行优化调整后，将每一个特征点反射出来的几束光线收束到相机光心。

通用横墨卡托格网系统(Universal Transverse Mercator Grid System，UTM)，UTM是一种投影坐标，使用基于网格的方法表示坐标，是将球面经纬度坐标经过投影算法转换成的平面坐标。

下面对本申请实施例提供的高精地图生成方法的实施环境进行介绍。

图1是根据本申请实施例提供的一种高精地图生成方法的实施环境示意图。该实施环境包括：采集设备101和服务器102。采集设备101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

采集设备101上设置有图像传感器，用于执行图像采集任务，采集设备101上还设置有定位装置，用于执行对采集设备101所处地理位置的定位任务。可选地，采集设备101为一体式设备，例如，采集设备101是智能手机、平板电脑、笔记本电脑等，但并不局限于此。可选地，采集设备101为分体式设备，包括图像采集设备和定位采集设备，例如，图像采集设备为相机、摄像机或具备图像采集功能的智能手机等；定位设备为全球定位系统(GlobalPosition System，GPS)设备，该GPS设备能够基于采集设备101所处的地理位置，输出对应的地理坐标。本申请实施例对此不作限定。示意性地，采集设备101用于在地图建图区域采集地图数据，采集到的地图数据能够用于生成建图区域内的高精地图，其中，地图数据包括图像数据和定位数据。

服务器102能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。示意性地，服务器102用于根据采集设备101采集到的地图数据，生成对应的高精地图。

可选地，采集设备101泛指多个采集设备中的一个，本实施例仅以采集设备101来举例说明。本领域技术人员能够知晓，上述采集设备101的数量能够更多。比如上述采集设备101为几十个或几百个，或者更多数量，此时上述地图生成方法的实施环境还包括其他采集设备。本申请实施例对采集设备的数量和设备类型不加以限定。

可选地，上述的有线或无线通信方式使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超级文本标记语言(Hyper Text Markup Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

本申请提供了一种高精地图生成方法，能够根据采集到的地图数据，生成对应的地图，而且，该地图生成方法对采集设备的处理能力要求和智能化水平要求不高，使得该高精地图生成方法的成本相对较低。下面以地图数据由相机和定位设备采集得到为例，对本申请实施例提供的高精地图生成方法进行说明。

图2是根据本申请实施例提供的一种高精地图生成方法的流程图，如图2所示，在本申请实施例中以应用于服务器为例进行说明。该方法包括以下步骤：

201、服务器基于目标视频中各个图像帧的特征点信息，对各个图像帧的初始位姿进行位姿优化，得到各个图像帧的目标位姿，该初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，该目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态。

在本申请实施例中，目标视频是指用于描述地图建图区域的一段视频，由相机采集得到。特征点信息包括特征点位置以及对应的描述符。服务器对各个图像帧的初始位姿进行位姿更新是指，服务器对各个图像帧的初始位姿进行修正，以得到各个图像帧的目标位姿。应理解，各个图像帧的目标位姿的精确度高于各个图像帧的初始位姿的精确度。可选地，一个图像帧的初始位姿包括初始平移矩阵和初始旋转矩阵。可选地，一个图像帧的目标位姿包括精确平移矩阵和精确旋转矩阵。

202、服务器基于各个图像帧的深度信息以及各个图像帧的目标位姿，获取该各个图像帧对应的稠密点云。

在本申请实施例中，深度信息用于指示三维空间中各个点到相机的距离，由深度图来描述。

203、服务器将各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图。

204、服务器提取该目标底图的语义信息，得到对应的地图元素，基于该目标底图和该地图元素，生成该目标视频对应的高精地图。

在本申请实施例中，该目标视频对应的高精地图能够详细地描述路况信息，提供高精度的定位信息。可选地，该高精地图可供自动驾驶设备使用，也即是，自动驾驶设备根据高精地图所描述的路况信息来规划动作，实现行驶过程。例如，高精地图所描述的路况信息包括道路标线、交通灯、标志牌以及车道连接关系等，本申请实施例对此不作限定。

根据上述图2所示的实施例，对本申请提供的高精地图生成方法进行了简要说明。下面基于具体的实施方式来对本申请提供的高精地图生成方法进行详细说明。

图3是根据本申请实施例提供的另一种高精地图生成方法的流程图，如图3所示，在本申请实施例中以应用于服务器为例进行说明。该方法包括以下步骤：

301、服务器基于目标视频中的多个图像帧组，获取该多个图像帧组对应的深度信息和该多个图像帧组对应的初始位姿。

在本申请实施例中，目标视频包括多个图像帧组，服务器以一个图像帧组为单位，分别获取各个图像帧组中各个图像帧的深度信息和初始位姿。可选地，服务器按照时间顺序和预设帧数对目标视频进行划分，得到目标视频的多个图像帧组，例如，预设帧数为8帧或10帧等，本申请实施例对此不作限定。

可选地，服务器调用基于深度学习的位姿估计算法，来获取多个图像帧组对应的深度信息和多个图像帧组对应的初始位姿。例如，该位姿估计算法为Deepv2d算法。下面以服务器调用Deepv2d算法获取深度信息和初始位姿为例，对本步骤进行说明。

在一些实施例中，Deepv2d算法包括深度估计和位姿估计。深度估计用于根据输入的一个图像帧组和该图像帧组中各个图像帧对应的位姿参数，输出该图像帧组中各个图像帧的深度信息，其中，位姿参数是指图像帧中各个像素点对应的坐标，通过相机外参计算得到。位姿估计用于根据深度估计模块的输出结果和该图像帧组中的各个图像帧，输出该图像帧组中各个图像帧的初始位姿。

基于上述对Deepv2d算法的介绍，以多个图像帧组中的任意一个图像帧组为例，服务器获取深度信息和初始位姿的实施方式包括但不限于如下两个步骤：

步骤一、服务器对该图像帧组中各个图像帧进行深度估计，得到该图像帧组对应的深度信息。

其中，服务器根据该图像帧组以及该图像帧组中各个图像帧对应的位姿参数，对该图像帧组中各个图像帧进行深度估计，得到该图像帧组中各个图像帧的深度信息。

步骤二、服务器基于该图像帧组对应的深度信息，对图像帧组中各个图像帧进行位姿估计，得到该图像帧组对应的初始位姿。

其中，服务器根据该图像帧组以及该图像帧组中各个图像帧的深度信息，对该图像帧组中两个图像帧之间进行位姿估计，得到该图像帧组中各个图像帧的初始位姿。

示意性地，下面参考图4，对服务器调用Deepv2d算法获取深度信息和初始位姿的实施方式进行说明。图4是本申请实施例提供的一种获取深度信息和初始位姿的方法示意图。如图4所示，服务器将目标视频中的一个图像帧组作为输入，得到该图像帧组中各个图像帧对应的深度信息(也即是深度图)，以及各个图像帧对应的初始位姿(也即是各个图像帧之间的位姿偏移量)。这种调用Deepv2d算法来获取深度信息和初始位姿的方法具备良好的鲁棒性，能够适用于各种场景下，包括纹理稀少的场景。

302、服务器基于多个图像帧组对应的深度信息和多个图像帧组对应的初始位姿，得到各个图像帧的深度信息和各个图像帧的初始位姿。

在本申请实施例中，服务器经过上述步骤301，分别获取了多个图像帧组对应的深度信息和初始位姿，然后服务器将多个图像帧组对应的深度信息和初始位姿配置为各个图像帧的深度信息和各个图像帧的初始位姿。

需要说明的是，上述步骤301和步骤302也即是服务器获取各个图像帧的深度信息和各个图像帧的初始位姿的方式。经过上述步骤301和步骤302，服务器得到了各个图像帧的深度信息，基于这种深度信息，服务器能够生成各个图像帧在相机坐标系下的稠密点云，为后续生成世界坐标系下的稠密点云提供了基础。而且，经过上述步骤301和步骤302，服务器根据视频窗内信息，得到了各个图像帧组对应的初始位姿，实现了针对目标视频中各个图像帧位姿的局部优化，为后续执行针对各个图像帧位姿的全局优化提供了基础。

303、服务器基于各个图像帧的特征点信息，对各个图像帧进行特征点匹配，得到各个图像帧的初始特征点对。

在本申请实施例中，初始特征点对是指分别位于相邻两个图像帧中且符合匹配条件的两个特征点。服务器对各个图像帧进行特征点检测和描述符提取，得到各个图像帧的特征点信息(也即是特征点位置以及对应的描述符)，然后服务器基于得到的各个图像帧的特征点信息，对相邻两个图像帧进行特征点匹配，滤除不符合匹配条件的特征点，得到符合匹配条件的初始特征点对。可选地，匹配条件是指分别位于相邻两个图像帧中的两个特征点之间的匹配度，大于或等于预设阈值。本申请实施例对此不作限定。

可选地，服务器调用Superpoint算法，对各个图像帧进行特征点检测和描述符提取，以得到各个图像帧的特征点信息，然后服务器调用Superglue算法，基于各个图像帧的特征点信息，对各个图像帧进行特征点匹配，得到各个图像帧的初始特征点对。

需要说明的是，Superpoint算法是一种基于深度学习的特征点提取方法，通过合成图像数据库训练得到，避免了繁重的人工标注过程，能够尽可能多的提取出的图像帧中的特征点，而且适用于多种场景下，具有良好的鲁棒性。进一步地，Superglue算法是一种能够同时进行特征匹配和滤除外点的方法，将注意力机制用于特征匹配，使得特征更加具有匹配特异性，从而基于具有特异性的特征点进行特征匹配，从而提高了特征点匹配的精度。结合上述两种方法来得到各个图像帧的初始特征点对，能够大大提高特征点检测和特征点匹配的精度，为后续执行针对图像帧位姿的全局优化提供了基础。

另外，在本申请实施例中，服务器是按照步骤301至步骤303的顺序执行的。在一些实施例中，服务器先执行步骤303，再执行步骤301和步骤302。在另一些实施例中，服务器在执行步骤301和步骤302的同时，执行步骤303。本申请实施例对于步骤301至步骤303的执行顺序不作限定。

304、服务器基于各个图像帧的初始特征点对和各个图像帧的初始位姿，获取各个图像帧对应的位姿误差。

在本申请实施例中，以任意两个相邻图像帧为例，这两个相邻图像帧对应多个初始特征点对，服务器能够基于各个初始特征点对在这两个相邻图像帧中的位置，确定各个初始特征点对的两个特征点之间的相对位移，从而得到各个初始特征点对的两个特征点之间的相对位姿，然后服务器基于这两个相邻图像帧的初始位姿以及各个初始特征点对的两个特征点之间的相对位姿，计算这两类位姿之间的位姿误差，从而得到这两个相邻图像帧对应的位姿误差，也即包括了这两个相邻图像帧中各个初始特征点对的位姿误差。

在一些实施例中，服务器确定各个初始特征点对的两个特征点之间的相对位移的方式如下所示，例如，相邻的两个图像帧A和B中分别存在特征点a和b，特征点a和b构成一个初始特征点对，则服务器基于特征点a在图像帧A中的位置以及特征点b在图像帧B中的位置，确定特征点a和b之间的相对位移(也可以理解为求解特征点a移动到特征点b的运动过程)。本申请实施例对此不作限定。

305、服务器基于各个图像帧对应的位姿误差，对各个图像帧的初始特征点对进行筛选，得到各个图像帧的目标特征点对。

在本申请实施例中，以任意两个相邻图像帧为例，这两个相邻图像帧对应的位姿误差包括这两个相邻图像帧中各个初始特征点对的位姿误差，服务器基于各个初始特征点对的位姿误差，对各个初始特征点对进行筛选，得到符合误差条件的目标特征点对。可选地，误差条件是指位姿误差小于或等于误差阈值，本申请实施例对此不作限定。

需要说明的是，经过上述步骤304和步骤305，服务器将各个图像帧的初始位姿作为初始化参数，对各个图像帧的初始特征点对进行筛选，能够提升特征点匹配的鲁棒性，而且，在纹理稀少的场景下，能够提高特征点匹配的可靠性。

306、服务器基于各个图像帧的目标特征点对，对各个图像帧进行回环检测，对回环检测后的各个图像帧进行全局优化，得到各个图像帧的目标位姿。

在本申请实施例中，回环检测包括回环探测和回环校正。服务器基于各个图像帧的目标特征点对，对各个图像帧进行回环探测，基于回环探测结果，对各个图像帧的初始位姿进行回环校正，然后服务器基于回环校正后的各个图像帧，对各个图像帧进行全局优化，以降低累积误差，从而得到各个图像帧的目标位姿。可选地，服务器调用全局BA算法，对各个图像帧进行全局优化。本申请实施例对此不作限定。

在一些实施例中，以任意一个图像帧为例，服务器对该图像帧进行回环检测的方式包括但不限于以下任一种方式：

第一种，服务器将该图像帧与目标视频中在该图像帧之前时刻的所有图像帧分别进行特征匹配，确定回环图像帧，然后基于该图像帧与回环图像帧之间的相对位姿，对该图像帧的初始位姿进行校正。

第二种，服务器从目标视频在该图像帧之前时刻的所有图像帧中，随机选取预设数量的图像帧，然后将该图像帧与这些预设数量的图像帧分别进行特征匹配，确定回环图像帧，然后基于该图像帧与回环图像帧之间的相对位姿，对该图像帧的初始位姿进行校正。

第三种，服务器调用词袋模型，计算该图像帧与目标视频中在该图像帧之前时刻的所有图像帧之间的相似度，响应于相似度符合目标条件，将对应的图像帧作为回环图像帧，从而基于该图像帧与回环图像帧之间的相对位姿，对该图像帧的初始位姿进行校正。

需要说明的是，在上述步骤301和步骤302中，服务器分别获取了目标视频中各个图像帧组对应的初始位姿，也即是对目标视频中局部图像帧进行了信息融合，从而实现了针对目标视频中各个图像帧位姿的局部优化。在上述步骤303至步骤306中，服务器通过各个图像帧的特征点信息以及对应的初始位姿，获取到各个图像帧的目标特征点对，从而进行回环检测和全局优化，以得到各个图像帧的目标位姿，也即是服务器对目标视频中所有图像帧进行了信息融合(也可以理解对目标视频所描述的整个路况信息进行了信息融合)，从而实现了针对目标视频中各个图像帧位姿的全局优化。

进一步地，通过上述步骤301至步骤306，本申请提供的地图生成方法既能够在多种场景下得到各个图像帧的初始位姿和深度信息，又能够利用特征点匹配的方式，对初始位姿进行位姿优化，以得到更加精确的目标位姿，为后续生成高精度地图提供了基础。

307、服务器基于目标视频对应的多个地理坐标的采样时间以及各个图像帧的采样时间，确定各个图像帧对应的地理坐标。

在本申请实施例中，目标视频对应的多个地理坐标是在采集目标视频的过程中，通过定位设备按照目标采样率，对地理坐标进行采样得到的。服务器以多个地理坐标的采样时间为基础，基于各个图像帧的采样时间，对各个图像帧对应的地理坐标进行插值，得到各个图像帧对应的地理坐标。

应理解，目标视频对应的地理坐标的采样率与图像帧的采样率是不一致的。例如，地理坐标的采样率为每秒采集1个地理坐标，图像帧的采样率为每秒采集24个图像帧，则在这24个图像帧中，只有第1个图像帧和第24个图像帧对应有精确的地理坐标。服务器基于第1个图像帧和第24个图像帧的地理坐标，对中间22个图像帧对应的地理坐标进行插值，从而得到各个图像帧对应的地理坐标。

可选地，本步骤包括但不限于如下两个步骤：

步骤一、服务器基于目标视频对应的多个地理坐标的采样时间以及各个图像帧的采样时间，确定与多个地理坐标分别处于同一时刻的多个图像帧集合，其中，一个图像帧集合对应一个地理坐标。

例如，目标视频对应10个地理坐标，采样率为每秒采集1个，目标视频对应240个图像帧，采样率为每秒采集24个，则服务器基于每个地理坐标的采样时间以及各个图像帧的采样时间，按照时间顺序，将各个图像帧划分为10个图像帧集合。需要说明的是，以上举例仅为示意性地，在另一些实施例中，服务器能够基于其他划分方式得到多个图像帧集合，本申请对此不作限定。

步骤二、对于多个图像帧集合中的任意一个图像帧集合，服务器基于该图像帧集合对应的地理坐标，对该图像帧集合中的各个图像帧对应的地理坐标进行插值，以得到该图像帧集合中各个图像帧对应的地理坐标。

例如，一个图像帧集合对应的地理坐标为m，则服务器基于该地理坐标m，对该图像帧集合中的各个图像帧对应的地理坐标进行插值，得到各个图像帧对应的地理坐标为m-n，…，m，…，m+n(m、n大于0)。

又例如，一个图像帧集合对应的地理坐标为m，则服务器基于该地理坐标m，确定与该地理坐标前后相邻的地理坐标为分别为l和h(l、h大于0)，则服务器基于l和h之间的差值，对该图像帧集合中的各个图像帧对应的地理坐标进行插值，得到各个图像帧对应的地理坐标。

需要说明的是，上述对该图像帧集合中的各个图像帧对应的地理坐标进行插值的方式仅为示意性地，在一些实施例中，服务器还能够基于其他方式得到各个图像帧对应的地理坐标，本申请实施例对此不作限定。

另外，经过上述步骤307，服务器确定了目标视频中的各个图像帧对应的地理坐标，极大提升了地理坐标的精度，从而为后续坐标系的精确转换提供了基础。

在一些实施例中，服务器能够在执行上述步骤301至步骤306时，同步执行上述步骤307。在另一些实施例中，服务器还能够在执行上述步骤301之前，执行上述步骤307。本申请实施例对于步骤307的执行顺序不作限定。

308、服务器基于各个图像帧的目标位姿和各个图像帧对应的地理坐标，调用马尔可夫模型，将各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到各个图像帧对应的稠密点云。

在本申请实施例中，马尔可夫模型用于根据各个图像的目标位姿和各个图像帧对应的地理坐标，对世界坐标系下相邻两个三维坐标进行约束，以提高世界坐标系下稠密点云的精度。可选地，该世界坐标系为UTM坐标系。

可选地，马尔可夫模型是基于当前时刻的地理坐标与前一时刻的地理坐标之间的坐标差、当前时刻的图像帧与前一时刻的图像帧之间的位姿偏移量建立的，该位姿偏移量是基于当前时刻的图像帧与前一时刻的图像帧的目标位姿确定的。

示意性地，以地理坐标为GPS坐标为例，服务器基于相邻时刻的图像帧建立马尔可夫模型，并优化其最大概率函数max∏P(p_i)，该马尔可夫模型参考下述公式(1)：

式中，ΔGPS_i＝GPS_i+1-GPS_i，表示当前时刻的GPS坐标与前一时刻的GPS坐标之间的坐标差；Δp_i＝p_i+1-p_i，表示当前时刻的图像帧与前一时刻的图像帧之间的位姿偏移量。基于上述公式(1)可知，该马尔可夫模型为一阶马尔可夫模型，即i+1时刻的状态只与i时刻的状态有关，与i时刻以前的状态无关。换言之，在世界坐标系下，任一图像帧对应的稠密点云(也可以理解为三维坐标)只与该图像帧之前时刻的一个图像帧对应的稠密点云有关。需要说明的是，在本申请实施例中，上述坐标差是基于精确的地理坐标得到的，上述位姿偏移量也是基于精确的目标位姿得到的，因此，这种基于相邻时刻图像帧建立的马尔可夫模型能够大大提高世界坐标系下稠密点云的精度。

另外，需要说明的是，服务器在经过上述步骤301至步骤306之后，得到了目标视频的各个图像帧在视觉坐标系下的目标位姿，而生成地图需要将视觉坐标系转换为世界坐标系，因此，服务器基于上述步骤307获取到各个图像帧对应的地理坐标后，利用这种精确的地理坐标作为约束，执行上述步骤308，得到各个图像帧在世界坐标系下的稠密点云，且得到的稠密点云精度较高，上述步骤307和步骤308也即是全局世界坐标系恢复的过程。

309、服务器将各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图。

在本申请实施例中，服务器对各个图像帧对应的稠密点云进行预处理后，将各个图像帧对应的稠密点云投影到二维平面坐标系，并进行三角化，得到目标底图。可选地，预处理包括但不限于去噪处理、简化处理、配准处理以及补洞处理等，本申请实施例对此不作限定。

310、服务器提取该目标底图的语义信息，得到对应的地图元素，基于该目标底图和该地图元素，生成目标视频对应的高精地图。

在本申请实施例中，服务器提取该目标底图的语义信息，得到对应的地图元素，然后基于目标底图，对提取到的地图元素进行矢量化，生成目标视频对应的高精地图。可选地，地图元素包括但不限于道路标线、交通灯、标志牌以及车道连接关系等。本申请实施例对此不作限定。

综上，本申请实施例提供了一种地图生成方法，在生成高精地图时，先对目标视频进行初步处理，根据各个图像帧的特征点信息，对初始位姿进行位姿优化，以得到更加精确的目标位姿，最终结合深度信息得到稠密点云，从而生成目标视频对应的高精地图。采用上述方法能够基于一段目标视频来生成对应的高精地图，节省了人力物力，提高了高精地图生成效率，而且，上述方法得到的稠密点云精确度更高，从而大大提高了高精地图的精度。

图5是根据本申请实施例提供的一种高精地图生成装置的结构示意图。该装置用于执行上述高精地图生成方法执行时的步骤，参见图5，该高精地图生成装置包括：位姿优化模块501、点云获取模块502、投影模块503以及地图生成模块504。

位姿优化模块501，用于基于目标视频中各个图像帧的特征点信息，对该各个图像帧的初始位姿进行位姿优化，得到该各个图像帧的目标位姿，该初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，该目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态；

点云获取模块502，用于基于该各个图像帧的深度信息以及该各个图像帧的目标位姿，获取该各个图像帧对应的稠密点云；

投影模块503，用于将该各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图；

地图生成模块504，用于提取该目标底图的语义信息，得到对应的地图元素，基于该目标底图和该地图元素，生成该目标视频对应的高精地图。

在一种可选地实现方式中，该装置还包括：

位姿获取模块，用于基于该目标视频中的多个图像帧组，获取该多个图像帧组对应的深度信息和该多个图像帧组对应的初始位姿；

位姿确定模块，用于基于该多个图像帧组对应的深度信息和该多个图像帧组对应的初始位姿，确定该各个图像帧的深度信息和该各个图像帧的初始位姿。

在一种可选地实现方式中，该位姿获取模块用于：

对于该多个图像帧组中的任意一个图像帧组，对该图像帧组中各个图像帧进行深度估计，得到该图像帧组对应的深度信息；

基于该图像帧组对应的深度信息，对该图像帧组中各个图像帧进行位姿估计，得到该图像帧组对应的初始位姿。

在一种可选地实现方式中，该位姿优化模块501包括：

特征点对确定单元，用于基于该各个图像帧的特征点信息，得到该各个图像帧的目标特征点对；

目标位姿确定单元，用于基于该各个图像帧的目标特征点对，对该各个图像帧进行回环检测，对回环检测后的该各个图像帧进行全局优化，得到该各个图像帧的目标位姿。

在一种可选地实现方式中，该特征点对确定单元用于：

基于该各个图像帧的特征点信息，对该各个图像帧进行特征点匹配，得到该各个图像帧的初始特征点对；

基于该各个图像帧的初始特征点对和该各个图像帧的初始位姿，获取该各个图像帧对应的位姿误差；

基于该各个图像帧对应的位姿误差，对该各个图像帧的初始特征点对进行筛选，得到该各个图像帧的目标特征点对。

在一种可选地实现方式中，该点云获取模块502用于：

在本申请实施例中，提供了一种地图生成装置，在生成高精地图时，先对目标视频进行初步处理，根据各个图像帧的特征点信息，对初始位姿进行位姿优化，以得到更加精确的目标位姿，最终结合深度信息得到稠密点云，从而生成目标视频对应的高精地图。采用上述装置能够基于一段目标视频来生成对应的高精地图，节省了人力物力，提高了高精地图生成效率，而且，上述装置得到的稠密点云精确度更高，从而大大提高了高精地图的精度。

需要说明的是：上述实施例提供的高精地图生成装置在生成高精地图时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的高精地图生成装置与高精地图生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的高精地图生成方法中所执行的操作。

以计算机设备为服务器为例，图6是根据本申请实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条计算机程序，该至少一条计算机程序由处理器601加载并执行以实现上述各个方法实施例提供的高精地图生成方法。当然，该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于计算机设备，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例的高精地图生成方法中计算机设备所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的高精地图生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种高精地图生成方法，其特征在于，所述方法包括：

基于目标视频中各个图像帧的特征点信息，对所述各个图像帧的初始位姿进行位姿优化，得到所述各个图像帧的目标位姿，所述初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，所述目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态；

基于所述各个图像帧的深度信息以及所述各个图像帧的目标位姿，获取所述各个图像帧对应的稠密点云；

将所述各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图；

提取所述目标底图的语义信息，得到对应的地图元素，基于所述目标底图和所述地图元素，生成所述目标视频对应的高精地图。

2.根据权利要求1所述的方法，其特征在于，所述各个图像帧的深度信息和所述各个图像帧的初始位姿的获取方式，包括：

基于所述目标视频中的多个图像帧组，获取所述多个图像帧组对应的深度信息和所述多个图像帧组对应的初始位姿；

基于所述多个图像帧组对应的深度信息和所述多个图像帧组对应的初始位姿，确定所述各个图像帧的深度信息和所述各个图像帧的初始位姿。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标视频中的多个图像帧组，获取所述多个图像帧组对应的深度信息和所述多个图像帧组对应的初始位姿，包括：

对于所述多个图像帧组中的任意一个图像帧组，对所述图像帧组中各个图像帧进行深度估计，得到所述图像帧组对应的深度信息；

基于所述图像帧组对应的深度信息，对所述图像帧组中各个图像帧进行位姿估计，得到所述图像帧组对应的初始位姿。

4.根据权利要求1所述的方法，其特征在于，所述基于目标视频中各个图像帧的特征点信息，对所述各个图像帧的初始位姿进行位姿优化，得到所述各个图像帧的目标位姿，包括：

基于所述各个图像帧的特征点信息，得到所述各个图像帧的目标特征点对；

基于所述各个图像帧的目标特征点对，对所述各个图像帧进行回环检测，对回环检测后的所述各个图像帧进行全局优化，得到所述各个图像帧的目标位姿。

5.根据权利要求4所述的方法，其特征在于，所述基于所述各个图像帧的特征点信息，得到所述各个图像帧的目标特征点对，包括：

基于所述各个图像帧的特征点信息，对所述各个图像帧进行特征点匹配，得到所述各个图像帧的初始特征点对；

基于所述各个图像帧的初始特征点对和所述各个图像帧的初始位姿，获取所述各个图像帧对应的位姿误差；

基于所述各个图像帧对应的位姿误差，对所述各个图像帧的初始特征点对进行筛选，得到所述各个图像帧的目标特征点对。

6.根据权利要求1所述的方法，其特征在于，所述基于所述各个图像帧的深度信息以及所述各个图像帧的目标位姿，获取所述各个图像帧对应的稠密点云，包括：

基于所述目标视频对应的多个地理坐标的采样时间以及所述各个图像帧的采样时间，确定所述各个图像帧对应的地理坐标；

基于所述各个图像帧的目标位姿以及所述各个图像帧对应的地理坐标，将所述各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到所述各个图像帧对应的稠密点云。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标视频对应的多个地理坐标的采样时间以及所述各个图像帧的采样时间，确定所述各个图像帧对应的地理坐标，包括：

基于所述目标视频对应的多个地理坐标的采样时间以及所述各个图像帧的采样时间，确定与所述多个地理坐标分别处于同一时刻的多个图像帧集合，其中，一个图像帧集合对应一个地理坐标；

对于所述多个图像帧集合中的任意一个图像帧集合，基于所述图像帧集合对应的地理坐标，对所述图像帧集合中的各个图像帧对应的地理坐标进行插值，得到所述图像帧集合中各个图像帧对应的地理坐标。

8.根据权利要求6所述的方法，其特征在于，所述基于所述各个图像帧的目标位姿以及所述各个图像帧对应的地理坐标，将所述各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到所述各个图像帧对应的稠密点云，包括：

基于所述各个图像帧的目标位姿和所述各个图像帧对应的地理坐标，调用马尔可夫模型，将所述各个图像帧的深度信息由视觉坐标系转换为世界坐标系，得到所述各个图像帧对应的稠密点云；

其中，所述马尔可夫模型是基于当前时刻的地理坐标与前一时刻的地理坐标之间的坐标差、当前时刻的图像帧与前一时刻的图像帧之间的位姿偏移量建立的，所述位姿偏移量是基于当前时刻的图像帧与前一时刻的图像帧的目标位姿确定的。

9.一种高精地图生成装置，其特征在于，所述装置包括：

位姿优化模块，用于基于目标视频中各个图像帧的特征点信息，对所述各个图像帧的初始位姿进行位姿优化，得到所述各个图像帧的目标位姿，所述初始位姿用于指示采集对应图像帧时相机在世界坐标系中的预测位置和预测姿态，所述目标位姿用于指示采集对应图像帧时相机在世界坐标系中的位置和姿态；

点云获取模块，用于基于所述各个图像帧的深度信息以及所述各个图像帧的目标位姿，获取所述各个图像帧对应的稠密点云；

投影模块，用于将所述各个图像帧对应的稠密点云投影到二维平面坐标系，得到目标底图；

地图生成模块，用于提取所述目标底图的语义信息，得到对应的地图元素，基于所述目标底图和所述地图元素，生成所述目标视频对应的高精地图。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

位姿获取模块，用于基于所述目标视频中的多个图像帧组，获取所述多个图像帧组对应的深度信息和所述多个图像帧组对应的初始位姿；

位姿确定模块，用于基于所述多个图像帧组对应的深度信息和所述多个图像帧组对应的初始位姿，确定所述各个图像帧的深度信息和所述各个图像帧的初始位姿。

11.根据权利要求10所述的装置，其特征在于，所述位姿获取模块用于：

12.根据权利要求9所述的装置，其特征在于，所述位姿优化模块包括：

特征点对确定单元，用于基于所述各个图像帧的特征点信息，得到所述各个图像帧的目标特征点对；

目标位姿确定单元，用于基于所述各个图像帧的目标特征点对，对所述各个图像帧进行回环检测，对回环检测后的所述各个图像帧进行全局优化，得到所述各个图像帧的目标位姿。

13.根据权利要求12所述的装置，其特征在于，所述特征点对确定单元用于：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行如权利要求1至权利要求8中任一项所述的高精地图生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求8中任一项所述的高精地图生成方法。