CN115761164A

CN115761164A - 逆透视ipm图像生成的方法和装置

Info

Publication number: CN115761164A
Application number: CN202211469115.6A
Authority: CN
Inventors: 李伟; 徐斌; 阮志伟; 胡润波; 柴华
Original assignee: Ditu Beijing Technology Co Ltd
Current assignee: Ditu Beijing Technology Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

根据本公开的实施例，提供了逆透视IPM图像生成的方法和装置。该方法包括获取对目标区域采集的多个图像以及多个图像各自的图像位置信息，图像位置信息指示多个图像在三维坐标系中的采集位置。该方法还包括确定多个图像中的特征点之间的匹配关系，匹配关系指示多个图像中互相匹配的特征点。该方法进一步包括至少基于匹配关系和图像位置信息，确定多个图像中的特征点在三维坐标系中的三维位置；以及至少基于三维位置，从多个图像生成针对目标区域的IPM图像。由此，通过引入在图像被采集时的图像位置信息来进一步约束对图像中的特征点的三维位置的确定，可以提高图像的特征点的位置估计准确性，进而提高所生成的IPM图像的准确度。

Description

逆透视IPM图像生成的方法和装置

技术领域

本公开的示例实施例总体涉及数字地图领域，特别地涉及逆透视IPM图像生成的方法、装置、设备、计算机可读存储介质和计算机程序产品。

背景技术

高精(HD)地图相对于普通地图而言，提供了更高精度、内容更为丰富的地图信息，主要服务于自动驾驶等场景。高精地图的生产可以分为“集中制图”或者“众包制图”。集中制图使用专用采集车进行数据采集。然而虽然得到的地图也非常精准，但所依赖的采集设备非常昂贵，采集数据耗时长，所以生产地图的时间周期较长。众包采集使用多个数据采集源，基于它们采集到的多组数据重建场景。这样，地图的生产速度相对较快。但是因为采集数据的车辆往往是普通量产级别的车辆，性能无法与专用采集车辆比拟，所以数据精度较低，对后期重建过程的要求较高。

发明内容

在本公开的第一方面，提供了一种逆透视IPM图像生成的方法。该方法包括：获取对目标区域采集的多个图像以及多个图像各自的图像位置信息，图像位置信息指示多个图像在三维坐标系中的采集位置；确定多个图像中的特征点之间的匹配关系，匹配关系指示多个图像中互相匹配的特征点；至少基于匹配关系和图像位置信息，确定多个图像中的特征点在三维坐标系中的三维位置；以及至少基于三维位置，从多个图像生成针对目标区域的IPM图像。

在本公开的第二方面，提供了一种用于逆透视IPM图像生成的装置。该装置包括：获取模块，被配置为获取对目标区域采集的多个图像以及多个图像各自的图像位置信息，图像位置信息指示多个图像在三维坐标系中的采集位置；第一确定模块，被配置为确定多个图像中的特征点之间的匹配关系，匹配关系指示多个图像中互相匹配的特征点；第二确定模块，被配置为至少基于匹配关系和图像位置信息，确定多个图像中的特征点在三维坐标系中的三维位置；以及生成模块，被配置为至少基于三维位置，从多个图像生成针对目标区域的IPM图像。

在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序可由处理器执行以实现第一方面的方法。

在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令，计算机可执行指令在被处理器执行时实现第一方面的方法。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的生成IPM图像的过程的流程图；

图3示出了根据本公开的一些实施例的生成IPM图像的一个示例的示意图；

图4示出了根据本公开的一些实施例的生成IPM图像的一个示例的流程图；

图5示出了根据本公开的一些实施例的采集的图像和生成的IPM图像的一个示例的示意图；

图6示出了根据本公开的一些实施例的逆透视IPM图像生成的装置的框图；以及

图7示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

本公开的实施例中可能涉及用户的数据、数据的获取和/或使用等。这些方面均遵循相应的法律法规及相关规定。在本公开的实施例中，所有数据的采集、获取、处理、加工、转发、使用等，都是在用户知晓并且确认的前提下进行的。相应地，在实现本公开的各实施例时，均应根据相关法律法规通过适当的方式，将可能所涉及的数据或信息的类型、使用范围、使用场景等告知用户并获得用户的授权。具体的告知和/或授权方式可以根据实际情况和应用场景而变化，本公开的范围在此方面不受限制。

本说明书及实施例中所述方案，如涉及个人信息处理，则均会在具备合法性基础(例如征得个人信息主体同意，或者为履行合同所必需等)的前提下进行处理，且仅会在规定或者约定的范围内进行处理。用户拒绝处理基本功能所需必要信息以外的个人信息，不会影响用户使用基本功能。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。在本文中，“模型”也可以被称为“机器学习模型”、“机器学习网络”或“网络”，这些术语在本文中可互换地使用。

为描述方便，在此首先定义若干概念和术语。

高精(HD)地图是指高精度、精细化定义的地图，其精度需要达到分米级才能够区分各个车道。随着技术的发展，高精度的定位已经成为可能。而精细化定义，则是需要格式化存储交通场景中的各种交通要素，包括传统地图的道路网数据、车道网络数据、车道线以及交通标志等数据。

逆透视变换(Inverse Perspective Mapping，IPM)是指为了消除相机拍摄的图像的透视效应而进行角度变换。例如，在自动驾驶或辅助驾驶中，车道线的检测非常重要。在前视相机拍摄的图像中，由于透视效应的存在，本来平行的事物，在图像中却是相交的。IPM变换可以用于消除这种透视效应。通过IPM得到的IPM图像有时也称为“鸟瞰图”。

运动结构恢复(Structure from motion，SfM)是一种三维重建的方法，用于从时间系列的二维图像中推算三维信息。

视觉三维重建是指基于多个视角的图像信息恢复出现实世界的场景。

光束法平差(Bundle Adjustment,BA)又称束调整、捆绑调整，是指从视觉三维重建中提炼出最优的三维模型和相机参数(内参和外参)，然后将相机姿态和特征点的位置做出最优的调整(adjustment)，而后将每个特征点反射出来的几束光线(bundles of lightrays)收束到光心的过程，简称BA。

如前文所简要提及的，众包采集模式是生产高精地图的一种重要方式。它的生产速度快，周期短，但是受限于采集车辆的性能，对后期用于场景重建的算法精度有较高的要求。

在一些基于视觉的众包采集方案中，为保证三维重建的成功率与精度，通常采用多相机组合摄影，并搭载高精度GNSS+IMU的方式辅助成图。由于设备成本的制约较难实现大规模数据更新，成图周期往往较长、时效性不足，难以适应对现实世界高速发展与场景变化的精确刻画。

本公开的实施例提出了一种逆透视IPM图像生成的方案。根据本公开的各种实施例，获取对目标区域采集的多个图像以及多个图像各自的图像位置信息。确定多个图像中的特征点之间的匹配关系。至少基于匹配关系和图像位置信息，确定多个图像中的特征点在三维坐标系中的三维位置。至少基于多个图像中的特征点的三维位置来生成IPM图像。在本公开的实施例中，通过引入在图像被采集时的图像位置信息来进一步约束对图像中的特征点的三维位置的确定，可以提高图像的特征点的位置估计准确性，进而提高所生成的IPM图像的准确度。

在一些实施例中，不同于以往将采集的图像直接投影变换得到的IPM图像，在IPM图像生成过程中，还提出了在特征点提取和匹配、三维重建以及检测结果的语义级IPM等一个或多个阶段的进一步改进，专注于表达特定场景元素，减少阴影、图像噪声等干扰因素，有利于高精地图的数字化生产。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在环境100中，车辆110搭载图像采集设备120、定位设备130以及电子设备140。图像采集设备120连续采集图像150，定位设备130提供在采集各个图像150时的位置信息(称为“图像位置信息”)。电子设备140接收采集的多个图像150以及图像位置信息，以对多个图像150进行处理，生成IPM图像160。

图像采集设备120，例如相机，可以安装在车辆110中，图像采集设备120也可以作为独立的设备放置在车辆110内。在生成道路的IPM图像160的实施例中，图像采集设备120采集包含地面车道线、指示箭头、交通标识等元素的图像。在一些实施例中，车辆120可以安装多个图像采集设备120，多个图像采集设备120例如采集不同视野的图像，或者多个图像采集设备120例如采集不同分辨率的图像。从多个图像采集设备120输出的多个图像中选择其中一个作为图像150，或者将多个图像中的至少部分进行融合后作为图像150，以提高图像150中道路场景元素的清晰度或增大道路场景元素的获取范围。可选地，图像150的来源可由用户指定。

定位设备130可以是基于全球导航卫星系统(Global Navigation SatelliteSystem，GNSS)的定位仪，例如基于GPS卫星定位系统，自动获取GPS信息和其他数据信息，并将其发送给电子设备140，用于定位每个图像150的位置信息。在一些实施例中，定位设备130还包括惯性测量单元(Inertial Measurement Unit，IMU)，用于测量图像采集设备120在三维空间中的角速度以及加速度，以确定图像采集设备120的姿态信息。在本公开的实施例中，定位设备130获取的位置信息和姿态信息，可以转换为图像采集设备120、采集的图像以及图像中特征点的位置信息和姿态信息。在一些实施例中，图像采集设备120采集的图像可以具有相应的时间戳，并且定位设备130的位置信息也具有相应的时间戳。通过时间戳的匹配可以确定出每个图像150的采集位置，从而获得采集到的多个图像的图像位置信息。

电子设备140可以是任何具有计算能力的设备。例如，电子设备140可以是终端设备，集成在车辆110的车机中，也可以与车辆110分离。在一些实施例中，电子设备140的至少部分可以是服务器、大型计算机、边缘节点等，例如可以是由云环境中的云操作系统来控制及协调的服务器，通过虚拟机或类似的方式提供数据处理等操作。电子设备140在云端的部分与在车辆110内的部分可以无线的方式通信。

在一些实施例中，车辆110可以是可以承载人和/或物并且通过发动机等动力系统移动的任何类型的车辆，包括但不限于轿车、卡车、巴士、电动车、房车、火车等等。在一些情况下，环境100中的车辆可以是集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统，这样的车辆也被称为智能汽车。进一步地，车辆110可以是自动驾驶车辆。

图2示出了根据本公开的一些实施例的生成IPM图像160的过程200的流程图。过程200可以被实现在电子设备140处。下面参考图1描述过程200。

在框210，电子设备140获取对目标区域采集的多个图像150以及多个图像150各自的图像位置信息。在一些实施例中，目标区域可以包括一条或多条道路。目标区域中还可以包括在道路中间或者两旁的行人、车辆、建筑等。可以理解，具体目标区域可以取决于要生成的IPM图像所关心的区域。在一些实施例中，多个图像150可以包括对目标区域连续采集到的图像序列。

在一些实施例中，在图1的环境中，电子设备140可以从图像采集设备120处获取车辆110前方区域的多个图像150，并且可以从相关联的定位设备130处获取采集每个图像150时的GPS信息，并转换为各图像150对应的图像位置信息。

在框220，电子设备140确定多个图像150中的特征点之间的匹配关系。在三维重建中，首先对多个图像150进行特征点提取和特征匹配。特征点提取指的是从图像提取出能够表征图像对应场景的二维点，称为特征点。在基于多个图像的三维重建中，可以分别确定多个图像150中的特征点，进而确定跨图像的特征点之间的匹配关系。

在一些实施例中，电子设备140可以在多个图像150的原始尺寸上逐个像素确定每个像素点是否属于特征点，也可以在放大或缩小后的图像150上逐个像素确定每个像素点是否属于特征点，并将确定结果映射回图像150的原始尺寸。例如，如果在原始图像的1/2尺寸上确定每个像素点是否属于特征点，那么1/2尺寸图像上的每个像素点的特征匹配结果映射回原始图像中，对应2个像素点的特征匹配结果。

在一些实施例中，在特征点提取时，可以同时确定每个图像150中的特征点的位置以及特征点的描述信息。描述信息可以被表示为向量的形式。描述信息也可以成为特征点的描述子或描述向量。描述信息可以被用于表征或描述该特征点。通过比较多个图像150中的特征点的描述信息，可以确定这些特征点是否是相同或相似特征点，即相匹配的特征点。多个图像150中相匹配的特征点可以组成特征点对或特征点集合，这些相匹配的特征点可能指示在多个图像150中均被捕获的环境中的某个点。

常规的视觉三维重建方案通常采用SfM重建方案，输入连续的图像序列，经过特征点提取、特征匹配、位姿估计、空间点三角化、全局BA优化后，得到每个图像的位置信息与姿态信息，以及特征点的空间三维坐标，从而构建现实世界对应的三维模型。传统的SfM重建方案在特征匹配阶段并未对特征进行差异化处理，仅依赖匹配相似度进行打分，超过得分阈值的即认为匹配成功。现实世界情况复杂，在道路场景下的动态对象(例如行驶的汽车、移动的自行车或行人等)会产生大量的不稳定匹配点，与传统的SfM重建方案中的刚体假设不符。因此，在一些实施例中，在特征点提取和匹配阶段，通过检测并过滤动态对象，同时也保留稳定的静态对象(例如路边停放的静态汽车)，可以实现自适应选择置信度高的匹配结果，避免匹配误差导致的三维重建形态失真。

具体地，电子设备140可以确定多个图像150的动态对象检测结果，以确定图像150中是否包括动态对象，亦即，确定多个图像150中的各像素点是否属于动态对象。

可以采用各种动态对象检测技术来执行对图像150的动态对象检测。在一些实施例中，电子设备140可以从多个图像150中选取第一图像作为比较基准，将其他图像中的各像素点与第一图像中的各像素点进行比较。像素点的偏差值大于等于预设阈值的像素点属于动态对象，需要被滤除；偏差值小于预设阈值的像素点属于静态对象，在三维重建中需要被重建，因此在特征点匹配时需要被保留。在一些实施例中，电子设备140可以根据动态物体识别技术对图像中的对象进行分类，例如分类为车辆。电子设备140再根据对象追踪技术(例如光流信息)来判断对象是否是动态的。例如，对于光流指示是动态的车辆，会被过滤掉；对于光流指示是静态的车辆，会被保留。除了这里描述的技术之外，还可以附加地或备选地利用任何其他适当的技术来执行动态对象检测。

电子设备140确定多个图像150的特征点提取结果，以确定多个图像150中的各像素点是否属于特征点。可以采用针对各种图像的特征点提取技术来执行对图像150的特征点确定。特征点提取例如可以包括基于机器学习模型或神经网络的方式来实现。在一些实施例中，特征点提取结果可以指示图像150中各个像素点属于特征点的概率。在一些实施例中，可以根据需要应用或场景需要设定特征点概率阈值，从多个图像150中选取概率大于等于预设特征点概率阈值的像素点作为特征点。

电子设备140可以根据动态对象检测结果来更新特征点提取结果。由于在对目标区域的建模时主要关心对于目标区域中的静态或相对静态对象的建模，而不期望引入动态对象，因此动态对象检测能够帮助有效地过滤出对后续过程无用或意义不大的特征点。

具体地，对于特定图像150中的给定像素点，如果动态对象检测结果指示该图像150中不包括动态对象或给定像素点不属于动态对象，则给定像素点属于特征点。如果动态对象检测结果指示给定像素点属于动态对象，则给定像素点将不会被认为属于特征点。特征点提取结果会被更新，以过滤该给定像素点。最后，基于更新后的特征点提取结果，电子设备140可以确定多个图像中相互匹配的特征点，得到匹配关系。在该匹配关系中，动态对象对应的特征点已被过滤掉，仅保留静态对象对应的特征点，从而减少了最终生成的IPM图像160中的动态干扰因素，实现了自适应选择置信度高的特征点匹配结果。

在获得匹配关系后，在框230，电子设备140至少基于多个图像150中的特征点之间的匹配关系以及多个图像150各自的图像位置信息，确定多个图像中的特征点的位置。此处确定的特征点的位置为三维坐标系中的位置。也就是说，需要执行从特征点在图像的二维空间中的位置变换到在三维空间中的位置。

在一些实施例中，三维坐标系包括世界坐标系。世界坐标系例如是依据笛卡尔右手坐标系来确定的，X轴为水平方向，Y轴为垂直方向，Z轴为垂直于XY平面的方向。世界坐标系通常是一个固定不变的坐标系。对于图像位置信息，由于其是在图像采集时由定位设备确定的(例如是定位设备130的实时GPS信息)，那么图像150的采集位置本身被认为是在三维坐标系(例如，世界坐标系中的位置)。在本公开的实施例中，引入多个图像150在三维坐标系中的具体位置，来约束对多个图像150中的特征点在三维坐标系中的三维位置的确定，以提高特征点位置确定的精度。

在一些实施例中，可以通过在对多个图像150执行三维重建的方式来确定特征点的三维位置。在一些实施例中，考虑到多个图像150可以按采集时间来被顺序排列，所执行的三维重建可以包括基于图像序列的增量式三维重建。传统的SfM重建方案主要针对无时序图像进行三维重建，仅依赖图像间的特征匹配结果建立连接关系，通常采用图像检索的方式，依据相似度进行匹配。增量式三维重建可以对多个图像150计算匹配关系，然后进行三角化(triangulation)来生成特征点的三维坐标并通过姿态估计求解相机位姿，并执行BA优化。例如，在道路场景下采集的前视图具有良好的时序连贯性，电子设备140采用增量式三维重建，基于前后帧的图像位置信息、姿态高度相似的前提，可有效提升图像匹配对的选择效率，同时降低误匹配的概率，保证三维重建结果的正确性。

在一些实施例中，电子设备140可以根据多个图像150的采集时序和匹配关系，对多个图像150执行三维重建，得到针对目标区域的重建结果。然后电子设备140可以基于图像位置信息，通过BA处理来优化重建结果。BA优化用于对图像(或特征点)的三维位置和相机参数进行非线性优化。在通用的BA方案中，主要考虑视觉重投影的误差，例如，电子设备140通过特征点提取与匹配，得到系列特征匹配点，使用对极几何可以求得相机的位姿。通过特征点P_j在三维坐标系中的三维坐标求得特征点P_j投影到图像的二维坐标系中的二维坐标，但是这个二维坐标是先通过位姿估算，再通过公式计算得出，因此这个二维坐标是估算值。这个过程称为重投影。通过位姿估算以及重投影计算出来的二维坐标与实际测量的二维坐标的偏差，即为重投影误差。为了最小化重投影误差，在局部坐标系下恢复图像的相对位姿后，再整体对齐到三维坐标系下，对应的优化函数如下：

其中，R_i和t_i对应图像150的位姿i，即图像采集设备120的外参，R_i为旋转矩阵，t_i为平移量，X_j为特征点P_j在三维坐标系下的三维坐标，x_ij为在位姿i处观测特征点P_j投影到二维坐标系下的二维坐标。在上式(1)中，R_i和t_i可以对应于特征点从三维坐标系中的三维位置到图像的二维坐标系中的二维位置的映射关系。

通过BA处理来优化三维重建结果的目标是将特征点从三维坐标系投影到二维坐标系，并通过迭代调整三维位置和二维位置之间的映射关系，找出最合适的位姿R_i和t_i，从而最小化重投影误差，得到优化的三维位置X_j。例如，在道路场景中，电子设备140接收具有时序连贯性的多个前视图，根据多个前视图中的给定特征点之间的匹配关系和特征点在三维坐标系中的三维坐标，通过上述优化函数确定给定特征点在二维坐标系中的二维坐标，以对车辆110前方道路的三维重建结果进行BA优化，提升匹配效率，同时降低误匹配概率，保证三维重建结果的正确性。

在一些实施例中，通过BA处理来优化三维重建结果的第一目标是通过迭代调整给定特征点的三维位置和二维位置之间的映射关系，找出最合适的相机位姿，从而最小化重投影误差。在本公开的实施例中，在上式(1)的BA优化基础上，进一步引入了图像150的图像位置信息作为进一步约束，以使所确定的映射关系R_i和t_i可以更准确。

在考虑图像150的图像位置信息的情况下，通过BA处理来优化三维重建结果的第二目标是根据图像采集位置来约束BA优化结果，以最小化各个图像在三维坐标系中的预测位置和实际位置之间的误差。在考虑图像位置信息的观测约束的情况下，可以将上式(1)的优化函数扩展为：

其中，P_GNSS为对应图像150的图像位置信息，即该图像的采集位置，例如GNSS观测值或GPS观测值，α为权重系数。通过引入已知的图像位置信息作为约束，在BA优化过程中，所要确定的R_i和t_i不仅要准确能够实现特征点在三维坐标系与二维坐标系之间的转换，而且还要能够准确实现整体图像在三维坐标系(即图像位置信息)与二维坐标系之间的转换。

在一些实施例中，可以根据图像位置信息的定位精度来调整上式(2)中的权重系数α，使得通过BA优化后的三维重建结果更加稳定可靠。例如，定位设备130基于GNSS系统向电子设备140提供位置信息。GNSS观测值及其观测值之间的线性组合是导航定位函数模型的已知量。选取不同的观测值可以决定GNSS的导航定位精度。例如，选取非差伪距观测值，由于伪距测量的精度低，导航定位精度也低；选取非差载波相位观测值，由于载波相位的测量精度可达毫米级，导航定位精度就很高。

在经过BA优化得到针对各个图像150的映射关系R_i和t_i后，可以将图像150中特征点从图像的二维标系中的二维位置映射到所三维坐标系(例如，世界坐标系)中的三维位置。

根据上述实施例，电子设备140首先获取按照时序采集的目标区域的多个图像150。然后电子设备140利用特征点提取和特征点匹配得到多个图像150中的特征点之间的匹配关系。而后电子设备140采用增量式三维重建和基于图像位置信息的BA优化方案得到目标区域的三维重建结果，即三维模型。经过BA优化后的重建结果能够更准确指示多个图像150中的各个特征点的三维位置。

以下通过实施例对基于重建结果生成IPM图像160进行介绍。

在框240，电子设备140至少基于特征点在三维坐标系中的三维位置，从多个图像150生成针对目标区域的IPM图像160。三维模型生成后，电子设备140可以得到每个图像的位姿。根据IPM原理，利用相机成像过程中的坐标系转化关系，电子设备140可以得到三维坐标系和二维坐标系之间坐标的对应关系。电子设备140对目标区域采集的多个图像150进行逆透视变换，生成IPM图像160，从而消除透视效应，将目标区域的图像(例如前视图)投影到地面。

在一些实施例中，为了从多个图像150生成IPM图像160，电子设备140首先确定多个图像150中属于特定场景元素的语义信息，例如基于图像分割将图像150中具有特定场景元素的区域分开。例如，在道路场景中，车道线、斑马线、指示箭头等都属于道路场景的语义信息，在本公开的实施例中又称为第一语义信息。

传统的IPM通常将前视图按照灰度或RGB模式直接投影到地面，如图1所示，但当地面因光线因素造成阴影时，视觉效果易出现显著的明暗差异，影响地面物体的判别与美观。为了减少干扰因素，电子设备140至少基于多个图像150中的第一语义信息对IPM图像160中的属于特定场景元素的语义信息进行划分，在本公开的实施例中又称为第二语义信息，例如地面上的指示箭头。

电子设备140根据特定场景元素的预设像素值重新渲染IPM图像160中由第二语义信息指示属于特征场景元素的像素点的像素值。例如，在道路场景中，如图3所示，电子设备140首先从多个图像150中确定属于地面、车道线以及指示箭头的像素点，然后电子设备140从生成的IPM图像160中确定属于地面、车道线以及指示箭头的像素点，根据地面的预设像素值重新对属于地面的像素点赋值，根据车道线的预设像素值重新对属于车道线的像素点赋值，根据指示箭头的预设像素值重新对属于指示箭头的像素点赋值，从而消除地面阴影等静态干扰因素。由此，电子设备140首先在图像分割的基础上，将多个图像150中的像素赋予第一语义信息，并由此确定IPM图像160的第二语义信息。然后电子设备140基于第二语义信息，重新渲染IPM图像160中的被认为属于特定场景元素的像素点，从而生成语义级的IPM图像160。语义级的IPM图像160更专注于表达地面车道线、指示箭头、文字(例如公交车道、时间、机动车道)等主要元素，减少了原始图像150中可能存在的地面阴影、图像噪声等干扰因素，更有利于高精地图的数字化生产。

在一些实施例中，为了确定IPM图像160中的第二语义信息，电子设备140可以基于多个图像150中的像素点在二维坐标系中的位置以及与预设观察点的相对距离来确定。常规的IPM投影过程可以理解为将图像结合相机内外参，通过单应变换将采集的图像150直接投影到地面。实际使用中，距离的远近会影响图像分割精度，即近距离的分割结果更准确、远距离的分割结果误差更大。同时由于动态对象(例如行驶的车辆)的干扰，部分地面元素(例如指示箭头)只在部分图像上可见。为了得到语义表达更准确的IPM图像160，例如，可以对场景元素进行投票，即对于IPM图像160上的任意一个像素，可以计算出这个像素被哪些图像观测以及对应的二维坐标，根据像素点的语义信息进行投票，可以得到更准确的语义表达。例如，某个指示箭头在几帧图像中被前方行驶的车辆遮挡，但在另外几帧图像中可以被正常观测，对应的像素点在投票机制后可以正确的被判定为地面箭头，电子设备140赋予这些像素正确的语义信息，并根据预设像素值进行渲染。

图3示出了根据本公开的一些实施例的生成IPM图像310的一个示例300的示意图。为了比较，示例300中左图是传统方式生成的IPM图像310，由于道路边高大树木产生的阴影影响，在IPM图像310中的指示箭头上，未被阴影覆盖的对应的像素点指示为白色，被阴影覆盖的对应的像素点指示为浅灰色。在IPM图像310中的地面，未被阴影覆盖的对应的像素点指示为灰色，被阴影覆盖的对应的像素点指示为深灰色。在示例300中的右图是语义级的IPM图像320，电子设备140根据正确的语义信息以及预设像素值，将指示箭头上指示为浅灰色的像素点重新渲染为白色，将地面上指示为深灰色的像素点重新渲染为灰色，从而排除树木阴影等静态干扰因素，更清晰的表达指示箭头和地面等场景元素。

图4示出了根据本公开的一些实施例的生成IPM图像160的一个示例400的流程图。示例400可以被实现在电子设备140处。图5示出了根据本公开的一些实施例的采集的图像150和生成的IPM图像160的一个示例500的示意图。结合图1、图4和图5描述示例400和示例500。

在道路场景中，图像采集设备120按照时序采集多个前视图，例如图5所示的图像150-1、图像150-2以及图像150-3，三个前视图形成图像序列。电子设备140首先获取多个前视图，然后对多个前视图分别进行特征点提取、动态对象检测以及图像分割。具体地，电子设备140对多个前视图进行特征点提取以及特征匹配，获取多个前视图中的特征点提取结果。电子设备140对多个前视图进行动态对象检测，识别动态对象，基于动态对象检测结果更新特征点提取结果，从而去除特征点中属于动态对象的特征点。本公开的一些实施例专注表达静态对象，有利于降低匹配误差导致的三维重建形态失真。

进一步地，电子设备140根据多个前视图中剩余的特征点，基于图像序列进行增量式三维重建，有效提升图像匹配对的选择效率，降低误匹配的概率。更进一步地，电子设备140基于定位设备130发送的各前视图的图像位置信息(例如，GNSS信息)执行基于图像序列的增量式三维重建，其中还包括BA优化。在三维重建结果的基础上可以生成IPM图像。为了生成语义表达更准确的IPM图像160，电子设备140可以对多个前视图进行图像分割，提取前视图中的关心的场景元素(例如，道路场景元素)。基于场景元素对IPM图像160重新渲染，以减少地面阴影、图像噪声等干扰因素。如图5所示，最后生成的语义级高精IPM图像160(例如，图5所示的示例IPM图像160)能够专注表达道路场景元素，有利于高精地图的数字化生产。

图6示出了根据本公开的一些实施例的逆透视IPM图像生成的装置600的示意性结构框图。装置600可以被实现为或者被包括在电子设备140中。装置600中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置600包括获取模块610，被配置为获取对目标区域采集的多个图像以及多个图像各自的图像位置信息，图像位置信息指示多个图像在三维坐标系中的采集位置。装置600还包括第一确定模块620，被配置为确定多个图像中的特征点之间的匹配关系，匹配关系指示多个图像中互相匹配的特征点。

装置600还包括第二确定模块630，被配置为至少基于匹配关系和图像位置信息，确定多个图像中的特征点在三维坐标系中的三维位置。装置600还包括生成模块640，被配置为至少基于三维位置，从多个图像生成针对目标区域的IPM图像。

在一些实施例中，为了确定特征点之间的匹配关系，第一确定模块620被进一步配置为确定针对多个图像中的动态对象检测结果，动态对象检测结果指示多个图像中的各像素点是否属于动态对象；为确定针对多个图像中的特征点提取结果，特征点提取结果指示多个图像中的各像素点是否属于特征点；基于动态对象检测结果来更新特征点提取结果；以及基于更新后的特征点提取结果，确定多个图像中相互匹配的特征点，得到匹配关系。

在一些实施例中，为了更新特征点提取结果，更新模块被进一步配置为对于多个图像中的给定像素点，如果动态对象检测结果指示给定像素点属于动态对象，更新特征点提取结果以指示给定像素点不属于特征点。

在一些实施例中，为了确定三维位置，第二确定模块630被进一步配置为基于多个图像的采集时序和匹配关系，对多个图像执行三维重建，得到针对目标区域的重建结果；以及基于图像位置信息，通过光束法平差BA处理来优化重建结果，优化后的重建结果至少指示三维位置。

在一些实施例中，为了优化重建结果，第二确定模块630被进一步配置为对于多个图像中的给定图像的给定特征点，通过BA处理，基于优化目标来确定给定特征点在图像的二维坐标系中的二维位置与给定特征点在三维坐标系中的三维位置之间的映射关系，其中优化目标被配置为：使得利用映射关系从三维位置映射到的预计二维位置与二维位置之间的误差满足第一目标，并且使得利用映射关系确定的给定图像在三维坐标系中的预测位置与图像的图像位置之间的误差满足第二目标；以及基于映射关系，将多个图像中的特征点在图像的二维坐标系中的二维位置映射到在三维坐标系中的三维位置。

在一些实施例中，三维重建包括增量式三维重建。

在一些实施例中，为了从多个图像生成IPM图像，生成模块640被进一步配置为确定针对多个图像的第一语义信息，第一语义信息指示多个图像中属于特定场景元素的像素点；至少基于第一语义信息，确定针对IPM图像的第二语义信息，第二语义信息指示IPM图像中属于特定场景元素的像素点；以及基于特定场景元素的预设像素值来确定IPM图像中属于特定场景元素的像素点的像素值。

在一些实施例中，为了确定针对IPM图像的第二语义信息，生成模块640被进一步配置为还基于多个图像中的像素点在图像的二维坐标系中的位置以及与预设观察点的相对距离，来确定第二语义信息。

在一些实施例中，三维坐标系包括世界坐标系。

图7示出了示出了其中可以实施本公开的一个或多个实施例的电子设备700的框图。应当理解，图7所示出的电子设备700仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图7所示出的电子设备700可以用于实现图1的电子设备140。

如图7所示，电子设备700是通用电子设备的形式。电子设备700的组件可以包括但不限于一个或多个处理器或处理单元710、存储器720、存储设备730、一个或多个通信单元740、一个或多个输入设备750以及一个或多个输出设备760。处理单元710可以是实际或虚拟处理器并且能够根据存储器720中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高电子设备700的并行处理能力。

电子设备700通常包括多个计算机存储介质。这样的介质可以是电子设备700可访问的任何可以获取的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器720可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备730可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备700内被访问。

电子设备700可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图7中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器720可以包括计算机程序产品725，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元740实现通过通信介质与其他电子设备进行通信。附加地，电子设备700的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备700可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备750可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备760可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备700还可以根据需要通过通信单元740与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备700交互的设备进行通信，或者与使得电子设备700与一个或多个其他电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种逆透视IPM图像生成的方法，包括：

获取对目标区域采集的多个图像以及所述多个图像各自的图像位置信息，所述图像位置信息指示所述多个图像在三维坐标系中的采集位置；

确定所述多个图像中的特征点之间的匹配关系，所述匹配关系指示所述多个图像中互相匹配的特征点；

至少基于所述匹配关系和所述图像位置信息，确定所述多个图像中的特征点在所述三维坐标系中的三维位置；以及

至少基于所述三维位置，从所述多个图像生成针对所述目标区域的所述IPM图像。

2.根据权利要求1所述的方法，其中确定所述特征点之间的匹配关系包括：

确定针对所述多个图像中的动态对象检测结果，所述动态对象检测结果指示所述多个图像中的各像素点是否属于动态对象；

确定针对所述多个图像中的特征点提取结果，所述特征点提取结果指示所述多个图像中的各像素点是否属于特征点；

基于所述动态对象检测结果来更新所述特征点提取结果；以及

基于更新后的所述特征点提取结果，确定所述多个图像中相互匹配的特征点，得到所述匹配关系。

3.根据权利要求2所述的方法，其中更新所述特征点提取结果包括：

对于所述多个图像中的给定像素点，

如果所述动态对象检测结果指示所述给定像素点属于动态对象，更新所述特征点提取结果以指示所述给定像素点不属于特征点。

4.根据权利要求1所述的方法，其中确定所述三维位置包括：

基于所述多个图像的采集时序和所述匹配关系，对所述多个图像执行三维重建，得到针对所述目标区域的重建结果；以及

基于所述图像位置信息，通过光束法平差BA处理来优化所述重建结果，优化后的所述重建结果至少指示所述三维位置。

5.根据权利要求4所述的方法，其中优化所述重建结果包括：

对于所述多个图像中的给定图像的给定特征点，通过所述BA处理，基于优化目标来确定所述给定特征点在图像的二维坐标系中的二维位置与所述给定特征点在所述三维坐标系中的三维位置之间的映射关系，

其中所述优化目标被配置为：使得利用所述映射关系从所述三维位置映射到的预计二维位置与所述二维位置之间的误差满足第一目标，并且使得利用所述映射关系确定的所述给定图像在所述三维坐标系中的预测位置与所述图像的图像位置之间的误差满足第二目标；以及

基于所述映射关系，将所述多个图像中的特征点在图像的二维坐标系中的二维位置映射到在所述三维坐标系中的三维位置。

6.根据权利要求4所述的方法，其中所述三维重建包括增量式三维重建。

7.根据权利要求1所述的方法，其中从所述多个图像生成所述IPM图像包括：

确定针对所述多个图像的第一语义信息，所述第一语义信息指示所述多个图像中属于特定场景元素的像素点；

至少基于所述第一语义信息，确定针对所述IPM图像的第二语义信息，所述第二语义信息指示所述IPM图像中属于所述特定场景元素的像素点；以及

基于所述特定场景元素的预设像素值来确定所述IPM图像中属于所述特定场景元素的像素点的像素值。

8.根据权利要求7所述的方法，其中确定针对所述IPM图像的第二语义信息包括：

还基于所述多个图像中的像素点在图像的二维坐标系中的位置以及与预设观察点的相对距离，来确定所述第二语义信息。

9.根据权利要求1所述的方法，其中所述三维坐标系包括世界坐标系。

10.一种用于逆透视IPM图像生成的装置，包括：

获取模块，被配置为获取对目标区域采集的多个图像以及所述多个图像各自的图像位置信息，所述图像位置信息指示所述多个图像在三维坐标系中的采集位置；

第一确定模块，被配置为确定所述多个图像中的特征点之间的匹配关系，所述匹配关系指示所述多个图像中互相匹配的特征点；

第二确定模块，被配置为至少基于所述匹配关系和所述图像位置信息，确定所述多个图像中的特征点在所述三维坐标系中的三维位置；以及

生成模块，被配置为至少基于所述三维位置，从所述多个图像生成针对所述目标区域的所述IPM图像。

11.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可由处理器执行以实现根据权利要求1至9中任一项所述的方法。

13.一种计算机程序产品，包括计算机可执行指令，其中所述计算机可执行指令在被处理器执行时实现根据权利要求1至9中任一项所述的方法。