CN117635685A

CN117635685A - 道路静态要素重建方法、系统、介质及设备

Info

Publication number: CN117635685A
Application number: CN202311768896.3A
Authority: CN
Inventors: 张永翔
Original assignee: Human Horizons Shanghai Autopilot Technology Co Ltd
Current assignee: Human Horizons Shanghai Autopilot Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-01

Abstract

本发明公开了一种道路静态要素重建方法、系统、介质及设备，所述方法包括：获取在目标道路区域内由至少一个相机拍摄到的图像数据；基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；将预设的俯视姿态信息输入到所述三维重建模型中进行处理，以获取所述目标道路区域的重建鸟瞰图；基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图，从而能够只使用单模态的图像数据即完成道路静态要素的重建，避免了多模态数据中的不同模态数据会不对齐的问题，提高数据处理及道路静态要素重建的效率。

Description

道路静态要素重建方法、系统、介质及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种道路静态要素重建方法、系统、介质及设备。

背景技术

目前，在进行道路静态要素重建(例如车道线的重建)时，通常需要利用多种不同类型的传感器在目标道路区域内进行数据采集从而获取多模态数据，并进一步根据多模态数据来完成道路静态要素的重建，但是，这会导致重建的过程中存在例如数据采集的成本较高、数据利用的效率较低等问题。

发明内容

为了解决上述技术问题，本发明实施例提出了一种道路静态要素重建方法、系统、介质及设备，能够高效完成道路静态要素的重建。

为了实现上述目的，本发明实施例提供了一种道路静态要素重建方法，包括：

获取在目标道路区域内由至少一个相机拍摄到的图像数据；

基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；

将预设的俯视姿态信息输入到所述三维重建模型中进行处理，以获取所述目标道路区域的重建鸟瞰图；

基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；

将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图。

进一步的，所述图像数据包括所述至少一个相机拍摄到的视频，所述视频中包含有若干帧图片；

则，所述基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型，包括：

基于所述图像数据，确定每一帧图片对应的相机姿态信息；

基于所述若干帧图片及其对应的相机姿态信息，对所述神经网络模型进行训练，得到三维重建模型。

进一步的，所述图像数据中还包括每一帧图片的时间戳；

则，所述基于所述图像数据，确定每一帧图片对应的相机姿态信息，包括：

针对每一帧图片，确定对应的载体在与所述时间戳最近的时间点上生成的定位信息，以作为这一帧图片对应的初定位信息；其中，所述对应的载体用于搭载拍摄相应帧图片的相机；

基于所述若干帧图片及其对应的初定位信息，进行三角化估计，得到每一帧图片对应的相机姿态信息。

进一步的，所述俯视姿态信息包括若干个俯视姿态；

则，所述将预设的俯视姿态信息输入到所述三维重建模型中进行处理，以获取所述目标道路区域的重建鸟瞰图，包括：

将所述若干个俯视姿态输入到所述三维重建模型，得到所述三维重建模型输出的若干俯视渲染图；其中，所述若干俯视渲染图与所述若干个俯视姿态一一对应；

拼接所述若干俯视渲染图，得到所述重建鸟瞰图。

进一步的，所述基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型，包括：

对所述重建鸟瞰图进行标注；

以标注后的重建鸟瞰图作为样本数据，对待训练分割模型进行训练，得到分割模型。

进一步的，所述对所述重建鸟瞰图进行标注，包括：

在所述重建鸟瞰图上标注静态信息；

其中，所述静态信息包括车道线和道路标识牌中的至少一项。

进一步的，所述以标注后的重建鸟瞰图作为样本数据，对待训练分割模型进行训练，得到分割模型，包括：

将所述标注后的重建鸟瞰图输入至所述待训练分割模型，得到所述待训练分割模型输出的分割真值图；其中，所述分割真值图对应于所标注的静态信息；

将所述分割真值图作为所述待训练分割模型在训练过程中的最终监督，以判断所述待训练分割模型是否训练完成，输出训练完成时的待训练分割模型作为所述分割模型。

进一步的，若所述至少一个相机的相机数量大于等于2，则所述至少一个相机为经过时间戳对齐处理的相机。

进一步的，所述神经网络模型包括重渲染模型NeRF，所述待训练分割模型包括车道分割模型。

本发明实施例还提供了一种道路静态要素重建系统，包括：

数据获取模块，用于获取在目标道路区域内由至少一个相机拍摄到的图像数据；

第一训练模块，用于基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；

重建鸟瞰图获取模块，用于将预设的俯视姿态信息输入到所述三维重建模型中，以获取所述目标道路区域的重建鸟瞰图；

第二训练模块，用于基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；

静态要素重建图获取模块，用于将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的道路静态要素重建方法的步骤。

本发明实施例还提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的道路静态要素重建方法的步骤。

综上，本发明具有以下有益效果：

采用本发明实施例，通过获取在目标道路区域内由至少一个相机拍摄到的图像数据；基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；将预设的俯视姿态信息输入到所述三维重建模型中进行处理，以获取所述目标道路区域的重建鸟瞰图；基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图，从而能够只使用单模态的图像数据即完成道路静态要素的重建，避免了多模态数据中的不同模态数据会不对齐的问题，提高数据处理及道路静态要素重建的效率。

附图说明

图1是本发明提供的一种道路静态要素重建方法的一个实施例的流程示意图；

图2是本发明提供的一种道路静态要素重建系统的一个实施例的结构示意图；

图3是本发明提供的一种计算机设备的一个实施例的结构示意图；

图4是本发明提供的道路静态要素重建的一个实施例的示意图；

图5是本发明提供的道路静态要素重建的一个实施例的示意图；

图6是本发明提供的道路静态要素重建的一个实施例的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

在本申请的描述中，需要说明的是，除非另有定义，本发明所使用的所有的技术和科学术语与属于本技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

参见图1，是本发明提供的道路静态要素重建方法的一个实施例的流程示意图，该方法包括步骤S1-S5，具体如下：

S1,获取在目标道路区域内由至少一个相机拍摄到的图像数据；

示例性的，所述图像数据可以包括视频和照片中的至少一种；所述至少一个相机可以是设于移动载体(例如车辆)上的环视相机。应理解，本实施例中若相机为多个时，多个相机中每一个的种类可以不同。

S2,基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；

示例性的，所述神经网络模型可以是基于神经网络的渲染模型，通过利用神经网络来模拟传统图形学渲染的过程，从而实现从输入到输出的端到端映射，从而可以利用深度学习模型的强大学习能力，对场景中的信息进行隐式的表示和学习，避免了传统图形学渲染基于物理规律和数学模型的确定性算法的限制。基于神经网络的渲染模型一般可以分为两种类型：一种是通过神经网络来估计场景中物体的几何形状、材质、光照等信息，另一种是通过神经网络来直接生成场景的渲染结果，在此不作具体限制。应理解，本实施例中所采用的基于神经网络的渲染模型至少具有以下优点：首先，可以自动学习和优化场景中的各种要素，从而产生逼真的渲染结果；其次，可以处理大规模的场景和复杂的几何形状，并且可以生成任意视角下的渲染结果；最后，还可以实现高效的渲染，并且可以处理动态场景和变化的光照条件。

S3,将预设的俯视姿态信息输入到所述三维重建模型中进行处理，以获取所述目标道路区域的重建鸟瞰图；

其中，BEV(Bird's Eye View，重建鸟瞰图)是一种从车辆传感器获取数据并生成鸟瞰图像的技术，BEV可以将车辆的周围环境以鸟瞰的方式呈现出来，从而为用户提供更直观、全面的环境感知信息。

S4,基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；

S5,将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图。

值得说明的是，由于本实施例结合了三维重建模型与分割模型，三维重建模型的输出并不是最终所需要的结果，因此可以将神经网络模型(训练完成即为三维重建模型)在训练时所加入的约束(每一帧图片均具备对应的相机姿态信息)作为三维重建模型与分割模型在融合之后的中间监督。

在一种可选的实施方式中，所述图像数据包括所述至少一个相机拍摄到的视频，所述视频中包含有若干帧图片；

基于所述图像数据，确定每一帧图片对应的相机姿态信息；

需要说明的是，所述相机姿态信息用于表征相机在拍摄时的拍摄位置与拍摄角度，由于相机在每次拍摄的时间点上均有对应的pose(姿态)，因此在确定每一帧图片对应的pose之后，可以利用每一帧图片及其对应的相机姿态信息来构建一个不同帧图片与相机姿态之间的对应关系，然后利用这种对应关系来训练神经网络模型，从而使得神经网络模型学习到图片与相机姿态之间的映射关系。

本实施例得到的三维重建模型可以实现对其输入相机姿态后，即可使其输出经过精准地模拟/推理得到的对应相机姿态下所拍摄的图片，示例性参见图4，图中Nerf为神经网络模型的一个实施例，其在训练完成后所得到的三维重建模型可以模拟输出任意相机姿态下所拍摄得到的图片。

在一种可选的实施方式中，所述图像数据中还包括每一帧图片的时间戳；

需要说明的是，每一帧图片的时间戳是指相机在拍摄该帧图片时所相应生成的时间戳，可以用于表示拍摄的时间，从而根据每一帧图片的时间戳，可以找到在时序里最相近的时间点上由搭载拍摄该帧图片的相机的载体所生成的定位信息，该定位信息可以由载体中设有的定位设备生成，该定位设备包括里程计、轮速计和GNSS(Global NavigationSatellite System，全球导航卫星系统)中的至少一种。

具体实施时，本实施例利用每一帧图片对应的初定位信息近似当作每一帧图片在点云上所处的拍摄位置，即近似确定若干帧图片各自在点云上所处的拍摄位置，从而可以得到若干帧图片中的任意两帧图片之间拍摄位置的间距，再利用该间距进行三角化估计，可选的，所述基于所述若干帧图片及其对应的初定位信息，进行三角化估计，得到每一帧图片对应的相机姿态信息，具体包括：

针对所述若干帧图片中的任意两帧图片，根据所述任意两帧图片对应的初定位信息确定所述任意两帧图片的间距，基于所述任意两帧图片及其间距进行像素对齐，估计得到所述任意两帧图片的目标距离；

在所述若干帧图片中穷举任意两帧图片并估计相应的目标距离；

基于所述若干帧图片及穷举所得到的目标距离计算平均误差，以构建像素点云，并基于所述像素点云进行逆投影，得到每一帧图片对应的相机姿态信息。

在一种可选的实施方式中，所述俯视姿态信息包括若干个俯视姿态；

拼接所述若干俯视渲染图，得到所述重建鸟瞰图。

本实施例中，参见图5，在神经网络模型训练完成所得的三维重建模型(例如Nerf)中，对其输入若干个给定的俯视姿态(俯视pose)，即可使其相应渲染输出模拟在该俯视姿态下所拍摄到的图片，从而得到若干俯视渲染图并进行拼接，得到针对目标道路区域的重建鸟瞰图，其中，俯视姿态的设置可以依据目标道路区域的实际情况而定，从而确保若干俯视渲染图能够表征该目标道路区域的完整情况，特别地，还可以在设置好之后确保不同俯视渲染图之间没有重叠区域而直接拼接以提高效率，当然，也可以在若干俯视渲染图之间出现重叠区域之后只保留其中一张俯视渲染图中的重叠区域，其他去除重叠区域，在此不做限定。

在一种可选的实施方式中，所述基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型，包括：

对所述重建鸟瞰图进行标注；

在一种可选的实施方式中，所述对所述重建鸟瞰图进行标注，包括：

在所述重建鸟瞰图上标注静态信息；

在一种可选的实施方式中，所述以标注后的重建鸟瞰图作为样本数据，对待训练分割模型进行训练，得到分割模型，包括：

需要说明的是，标注的静态信息一般称为真值，可以是在重建鸟瞰图上人为标注的一些数据形式是坐标点或其他形式编码的物体(例如可以直接在其上遮罩)，然后将标注后的重建鸟瞰图输入到待训练分割模型中，通过判断待训练分割模型输出的分割真值图是否含有正确的真值对应的信息(例如坐标点所表征的位置是否正确、是否将遮罩区域成功分割了出来)来判断待训练分割模型的训练是否完成。由于三维重建模型与分割模型结合之后，分割模型所输出的结果就是最终的结果，因此真值可以作为待训练分割模型在训练过程中的最终监督，同时也是三维重建模型与分割模型相融合后的最终监督。

在一种可选的实施方式中，若所述至少一个相机的相机数量大于等于2，则所述至少一个相机为经过时间戳对齐处理的相机。

可以理解的是，本实施例中由于只是采用了相机所拍摄到的图像数据，即单模态数据，因此只需简单地对每个相机进行时间戳对齐即可，避免现有技术中需要针对多模态数据进行筛洗，例如无需考虑雷达数据与图像数据间的对齐问题。

在一种可选的实施方式中，所述神经网络模型包括重渲染模型NeRF，所述待训练分割模型包括车道分割模型。

需要说明的是，重渲染模型NeRF(Neural Radiance Fields)是一种基于神经网络的渲染模型，可以生成逼真的场景渲染结果。相比于传统的计算机图形学方法，NeRF具有更高的渲染质量和更强的灵活性。NeRF的核心思想是将场景表示为5D神经辐射场，通过对场景的多次采样和渲染来得到最终的渲染结果。具体而言，NeRF首先使用一组有序的RGB图像和相机参数作为输入，通过训练一个神经网络来学习场景的5D神经辐射场表示，这个过程可以理解为将场景编码为一个神经网络模型。在渲染阶段，NeRF使用一个虚拟相机来模拟光线在场景中的传播，通过查询神经辐射场得到场景中每个点的颜色和密度，并将这些信息用于渲染最终的图像；由于NeRF使用了神经网络来表示场景，因此可以生成任意视角下的高质量渲染结果，且具有更好的视觉效果和真实感。

本实施例中，能够通过训练好的重渲染模型NeRF直接准确渲染出所需视角的图片。并且在最终的分割阶段能够直接使用常用的车道分割模型(例如图6中记为SegModel的分割模型)来获得分割的结果，无需使用现有技术中常用的大模型，从而降低了算力要求，可以直接部署在车端等算力有限的设备上。

相应地，本发明实施例还提供一种道路静态要素重建系统，能够实现上述实施例提供的道路静态要素重建方法的所有流程。

参见图2，是本发明提供的道路静态要素重建系统的一个实施例的结构示意图，包括：

数据获取模块101，用于获取在目标道路区域内由至少一个相机拍摄到的图像数据；

第一训练模块102，用于基于所述图像数据，对预设的神经网络模型进行训练，得到三维重建模型；

重建鸟瞰图获取模块103，用于将预设的俯视姿态信息输入到所述三维重建模型中，以获取所述目标道路区域的重建鸟瞰图；

第二训练模块104，用于基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型；

静态要素重建图获取模块105，用于将所述重建鸟瞰图输入到所述分割模型，以使所述分割模型输出所述目标道路区域的静态要素重建图。

基于所述图像数据，确定每一帧图片对应的相机姿态信息；其中，所述相机姿态信息用于表征相机在拍摄时的拍摄位置与拍摄角度；

拼接所述若干俯视渲染图，得到所述重建鸟瞰图。

对所述重建鸟瞰图进行标注；

在所述重建鸟瞰图上标注静态信息；

参见图3，该实施例的计算机设备包括：处理器301、存储器302以及存储在所述存储器302中并可在所述处理器301上运行的计算机程序，例如道路静态要素重建程序。所述处理器301执行所述计算机程序时实现上述各个道路静态要素重建方法实施例中的步骤，例如图1所示的步骤S1-S5。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器302中，并由所述处理器301执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括，但不仅限于，处理器301、存储器302。本领域技术人员可以理解，所述示意图仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器301、数字信号处理器301(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器301可以是微处理器301或者该处理器301也可以是任何常规的处理器301等，所述处理器301是所述计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器302可用于存储所述计算机程序和/或模块，所述处理器301通过运行或执行存储在所述存储器302内的计算机程序和/或模块，以及调用存储在存储器302内的数据，实现所述计算机设备的各种功能。所述存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器302可以包括高速随机存取存储器302，还可以包括非易失性存储器302，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器302件、闪存器件、或其他易失性固态存储器302件。

其中，所述计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器301执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器302、只读存储器302(ROM，Read-OnlyMemory)、随机存取存储器302(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

综上，本发明具有以下有益效果：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种道路静态要素重建方法，其特征在于，包括：

获取在目标道路区域内由至少一个相机拍摄到的图像数据；

2.如权利要求1所述的道路静态要素重建方法，其特征在于，所述图像数据包括所述至少一个相机拍摄到的视频，所述视频中包含有若干帧图片；

基于所述图像数据，确定每一帧图片对应的相机姿态信息；

3.如权利要求2所述的道路静态要素重建方法，其特征在于，所述图像数据中还包括每一帧图片的时间戳；

4.如权利要求1所述的道路静态要素重建方法，其特征在于，所述俯视姿态信息包括若干个俯视姿态；

拼接所述若干俯视渲染图，得到所述重建鸟瞰图。

5.如权利要求1所述的道路静态要素重建方法，其特征在于，所述基于所述重建鸟瞰图对待训练分割模型进行训练，得到分割模型，包括：

对所述重建鸟瞰图进行标注；

6.如权利要求5所述的道路静态要素重建方法，其特征在于，所述对所述重建鸟瞰图进行标注，包括：

在所述重建鸟瞰图上标注静态信息；

7.如权利要求6所述的道路静态要素重建方法，其特征在于，所述以标注后的重建鸟瞰图作为样本数据，对待训练分割模型进行训练，得到分割模型，包括：

8.如权利要求3所述的道路静态要素重建方法，其特征在于，若所述至少一个相机的相机数量大于等于2，则所述至少一个相机为经过时间戳对齐处理的相机。

9.如权利要求1-8任一项所述的道路静态要素重建方法，其特征在于，所述神经网络模型包括重渲染模型NeRF，所述待训练分割模型包括车道分割模型。

10.一种道路静态要素重建系统，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的道路静态要素重建方法。

12.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-9任一项所述的道路静态要素重建方法。