CN114898313A

CN114898313A - 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质

Info

Publication number: CN114898313A
Application number: CN202210472621.4A
Authority: CN
Inventors: 乐然; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-12

Abstract

本发明涉及自动驾驶控制领域，公开了一种驾驶场景的鸟瞰图生成方法、装置、设备及存储介质。获取驾驶场景的点云数据和多个相机采集的图像数据；基于点云数据和图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；根据投影关系，在维度空间上，对各场景识别结果进行点云染色，得到点云场景信息；对点云场景信息和点云数据进行拼接，生成对应的鸟瞰特征图，并对鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。本发明提升了驾驶场景鸟瞰图生成的信息丰富程度，同时降低了计算量。

Description

驾驶场景的鸟瞰图生成方法、装置、设备及存储介质

技术领域

本发明涉及自动驾驶控制领域，尤其涉及一种驾驶场景的鸟瞰图生成方法、装置、设备及存储介质。

背景技术

无人车的感知任务通常使用多种传感器的输入信息，如图像、激光点云等。其中，相机图像的标注信息及输出都在2D平面上，而激光点云的输出则可以为鸟瞰图下的3D空间上。将多个摄像头采集的多帧图像信息及激光雷达的点云信息统一到鸟瞰图，是多帧，多模态融合的惯用处理方法。然而，基于2D图像的目标检测、语义识别等模型通常能获得更丰富的语义信息，为了达到更好的预测效果，对原始图像像素的鸟瞰图投影需要巨大的计算量。即现有2D图像和3D点云融合到鸟瞰图上的方法存在计算量大的问题。

发明内容

本发明的主要目的在于解决现有2D图像和3D点云融合到鸟瞰图上的方法存在计算量大的技术问题。

本发明第二方面提供了一种驾驶场景的鸟瞰图生成方法，包括：获取驾驶场景的点云数据和多个相机采集的图像数据；基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

可选的，在本发明第一方面的第一种实现方式中，所述基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系包括：提取所述点云数据中的激光雷达位姿信息，以及提取所述图像数据中的相机位姿信息；根据所述激光雷达位姿信息和所述相机位姿信息，构建点云空间与相机平面之间的投影关系。

可选的，在本发明第一方面的第二种实现方式中，预置维度空间为二维空间或三维空间，所述利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果包括：利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息包括：根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息；根据所述第一坐标信息和所述第二坐标信息，分别判断所述各个点云是否在所述目标检测框内；若是，则匹配目标检测框内的点云对应的多维度目标信息；根据所述投影关系，分别选取与所述各个点云最接近的像素点，并分别匹配所述各个点云对应的最接近的像素点的语义信息；根据所述各个点云匹配到多维度目标信息和语义信息，得到点云场景信息。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息包括：若所述目标检测框为二维空间检测框，则根据所述投影关系，计算驾驶场景对应各个点云投影在二维空间上的坐标并作为第一坐标信息，以及提取所述多维度目标信息中的坐标并作为所述目标检测框对应的第二坐标信息；若所述目标检测框为三维空间检测框，则根据所述投影关系，计算所述目标检测框投影在三维空间上的坐标并作为第二坐标信息，以及确定驾驶场景对应各个点云的坐标并作为第一坐标信息。

可选的，在本发明第一方面的第五种实现方式中，所述对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图包括：根据所述点云数据，计算各个点云在预置基准鸟瞰图下的第三坐标信息，并根据所述第三坐标信息，确定所述基准鸟瞰图中与各个点云对应的像素点；将各个点云对应的点云场景信息和点云数据添加至所述基准鸟瞰图中对应的像素点，得到对应的鸟瞰特征图。

可选的，在本发明第一方面的第六种实现方式中，所述对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图包括：利用预置时序模型，构建本次图像校准时以及预置过往次序图像校准时的驾驶车辆位姿的转换矩阵；根据所述转换矩阵，对所述时序模型中的多层下采样层在所述过往次序输出的多层校准结果进行变换，并将变换后的多层校准结果拼接至所述鸟瞰特征图中；对拼接后的鸟瞰特征图进行图像校准，得到驾驶场景的鸟瞰图。

本发明第二方面提供了一种驾驶场景的鸟瞰图生成装置，包括：获取模块，用于获取驾驶场景的点云数据和多个相机采集的图像数据；生成模块，用于基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；点云染色模块，用于根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；位姿转换模块，用于对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

可选的，在本发明第二方面的第一种实现方式中，所述生成模块包括：提取单元，用于提取所述点云数据中的激光雷达位姿信息，以及提取所述图像数据中的相机位姿信息；投影构建单元，用于根据所述激光雷达位姿信息和所述相机位姿信息，构建点云空间与相机平面之间的投影关系。

可选的，在本发明第二方面的第二种实现方式中，预置维度空间为二维空间或三维空间，所述生成模块还包括：目标识别单元，用于利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；语义识别单元，用于利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息。

可选的，在本发明第二方面的第三种实现方式中，所述点云染色模块包括：确定单元，用于根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息；判别单元，用于根据所述第一坐标信息和所述第二坐标信息，分别判断所述各个点云是否在所述目标检测框内；匹配单元，用于若是，则匹配目标检测框内的点云对应的多维度目标信息；根据所述投影关系，分别选取与所述各个点云最接近的像素点，并分别匹配所述各个点云对应的最接近的像素点的语义信息；根据所述各个点云匹配到多维度目标信息和语义信息，得到点云场景信息。

可选的，在本发明第二方面的第四种实现方式中，所述确定单元还用于：若所述目标检测框为二维空间检测框，则根据所述投影关系，计算驾驶场景对应各个点云投影在二维空间上的坐标并作为第一坐标信息，以及提取所述多维度目标信息中的坐标并作为所述目标检测框对应的第二坐标信息；若所述目标检测框为三维空间检测框，则根据所述投影关系，计算所述目标检测框投影在三维空间上的坐标并作为第二坐标信息，以及确定驾驶场景对应各个点云的坐标并作为第一坐标信息。

可选的，在本发明第二方面的第五种实现方式中，所述位姿转换模块包括：计算单元，用于根据所述点云数据，计算各个点云在预置基准鸟瞰图下的第三坐标信息，并根据所述第三坐标信息，确定所述基准鸟瞰图中与各个点云对应的像素点；添加单元，用于将各个点云对应的点云场景信息和点云数据添加至所述基准鸟瞰图中对应的像素点，得到对应的鸟瞰特征图。

可选的，在本发明第二方面的第六种实现方式中，所述位姿转换模块还包括：矩阵构建单元，用于利用预置时序模型，构建本次图像校准时以及预置过往次序图像校准时的驾驶车辆位姿的转换矩阵；拼接单元，用于根据所述转换矩阵，对所述时序模型中的多层下采样层在所述过往次序输出的多层校准结果进行变换，并将变换后的多层校准结果拼接至所述鸟瞰特征图中；校准单元，用于对拼接后的鸟瞰特征图进行图像校准，得到驾驶场景的鸟瞰图。

本发明第三方面提供了一种驾驶场景的鸟瞰图生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述驾驶场景的鸟瞰图生成设备执行上述的驾驶场景的鸟瞰图生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的驾驶场景的鸟瞰图生成方法。

本发明提供的技术方案中，将相机采集到的2D平面的图像数据，进行目标检测和语义分割的输出，通过点云空间与相机平面的投影关系，来对目标检测和语义分割的输出进行点云染色，并拼接成鸟瞰特征图。使用图像数据补全类别等细节信息，同时使用点云数据获得精确的坐标信息，结合位姿空间变换，将鸟瞰特征图在时序模型中进行场景推理，得到该驾驶场景的鸟瞰图，以减少驾驶场景的鸟瞰图生成的计算量，同时丰富了鸟瞰图中包含的信息。

附图说明

图1为本发明实施例驾驶场景的鸟瞰图生成方法的第一个实施例示意图；

图2为本发明实施例驾驶场景的鸟瞰图生成方法的第二个实施例示意图；

图3为本发明实施例驾驶场景的鸟瞰图生成方法的第三个实施例示意图；

图4为本发明实施例驾驶场景的鸟瞰图生成装置的一个实施例示意图；

图5为本发明实施例驾驶场景的鸟瞰图生成装置的另一个实施例示意图；

图6为本发明实施例驾驶场景的鸟瞰图生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种驾驶场景的鸟瞰图生成方法、装置、设备及存储介质，获取驾驶场景的点云数据和多个相机采集的图像数据；基于点云数据和图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；根据投影关系，在维度空间上，对各场景识别结果进行点云染色，得到点云场景信息；对点云场景信息和点云数据进行拼接，生成对应的鸟瞰特征图，并对鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。本发明提升了驾驶场景鸟瞰图生成的信息丰富程度，同时降低了计算量。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中驾驶场景的鸟瞰图生成方法的第一个实施例包括：

101、获取驾驶场景的点云数据和多个相机采集的图像数据；

可以理解的是，本发明的执行主体可以为驾驶场景的鸟瞰图生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，通过设于主车上的激光雷达采集到驾驶场景点云数据，通过多个相机采集到驾驶场景的多张图像数据，其中，此处点云数据和图像数据是在主车驾驶过程中同一时刻采集到的。点云数据记录了驾驶场景中各个目标的3D空间信息，可以为各个目标提供精准的位置坐标；图像数据记录了驾驶场景中各个目标的2D平面信息，可以为各个目标提供精准的语义信息和区域范围。此处同时或者点云数据和图像数据来进行信息融合，提供驾驶场景中更准和更丰富的各个目标相关信息，使得后续投射成鸟瞰图时更精确。

其中，在每一个时刻主车所在驾驶场景中，由于相机视角有限，需要通过多个相机采集到主车各个方位的图像数据，来对各个方位的图像数据进行聚合，得到表示主车所在驾驶场景全局的2D平面信息。

102、基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；

本实施例中，在获取到点云数据和图像数据后，通过构建点云空间(3D)的相机平面(2D)之间的投影关系，使得点云数据可以投影到相机平面上，或者图像数据可以反投影到点云空间中，用于后续对点云数据和图像数据进行融合。

本实施例中，此处需要通过多个图像处理模型来分别识别图像数据的各类型场景信息，比如语义信息、检测框信息、实例分割信息等与驾驶场景相关的场景识别结果，对应的多个图像处理模型包括目标检测模型、语义识别模型、实例分割模型等。通过结合多类型的场景识别结果，以供后续生成更精准的鸟瞰图。

具体的，多个图像处理模型可以为语义分割模型、目标检测模型和实例分割模型中的任意两个模型的组合或者全部三个模型的组合，即对应场景是被到的场景识别结果，可以为语义信息、检测框信息、实例分割信息中任意两项信息的组合，或者为全部三项信息的组合。优选地，可以采用目标检测模型和语义分割模型的组合、或者采用目标检测模型和实例分割模型的组合，来分别对各个图像数据进行场景识别。

另外，通过多个图像处理模型，来识别驾驶场景在预置维度空间比如二维空间或者三维空间上的场景识别结果。比如通过目标检测模型识别图像数据中的2D检测框或者3D检测框。

103、根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；

本实施例中，前面确定了点云空间和相机平面之间的投影关系，以及通过多个图像处理模型识别到图像数据的多个场景识别结果，此处将场景识别结果添加到每个点云上，使得每个点云除了包含自身携带的点云数据外，还新增图像数据对应的场景识别结果，实现点云染色，即点云数据和图像数据的信息融合。

具体的，通过投影关系，可以将点云投影到图像数据对应的像素点上，或者将图像数据的每个像素点投影到对应的点云上，确定每个点云与每个像素点之间的对应关系。然后将每个像素点识别到的场景识别结果添加到对应投影的点云上，即可得到点云场景数据。

其中，若在二维空间中进行点云染色，则将点云投影到图像数据对应的像素点上，来确定每个点云坐落的像素点所携带的场景识别结果的信息；若在三维空间中进行点云染色，则将图像数据对应的像素点投影到点云上，同时将每个像素点携带的场景识别结果的信息添加至对应投影的点云。

104、对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

本实施例中，在点云数据中每个点云的点云场景信息后，再与原来每个点云的点云数据进行拼接，得到三维或者二维表示的拼接信息，然后采用拼接信息来生成二维的鸟瞰特征图。

具体的，比如在仅包含主车的模板图上，将点云投影到模板图的每个像素点上，然后根据投影的结果，将点云场景信息和点云数据分别在目标图对应的像素点上进行拼接，即可得到二维的鸟瞰特征图。

本实施例中，在鸟瞰特征图的基础上，加入历史的主车位姿信息，使得鸟瞰特征图的各目标加入轨迹校准的位姿转换，再生成驾驶场景的鸟瞰图。其中，主车位姿信息可以包括主车所在驾驶场景的坐标的朝向。

具体的，可以将鸟瞰特征图输入至一个神经网络模型进行推理，以输出初始的鸟瞰图，然后再通过当前主车的位姿信息、历史主车的位姿信息进行比较，来对当前主车的运动位姿进行校准，以相对应调整驾驶场景各个目标的位姿，得到位姿转换后驾驶场景的鸟瞰图。

其中，当前主车的位姿信息、历史主车的位姿信息可以为二维数据也可以为三维数据，对应的位姿转换可以采用二维平移旋转，也可以采用三维投影仿射的变化方式。

本发明实施例中，将相机采集到的2D平面的图像数据，进行目标检测和语义分割的输出，通过点云空间与相机平面的投影关系，来对目标检测和语义分割的输出进行点云染色，并拼接成鸟瞰特征图。使用图像数据补全类别等细节信息，同时使用点云数据获得精确的坐标信息，结合位姿空间变换，将鸟瞰特征图在时序模型中进行场景推理，得到该驾驶场景的鸟瞰图，以减少驾驶场景的鸟瞰图生成的计算量，同时丰富了鸟瞰图中包含的信息。

请参阅图2，本发明实施例中驾驶场景的鸟瞰图生成方法的第二个实施例包括：

201、获取驾驶场景的点云数据和多个相机采集的图像数据；

202、提取所述点云数据中的激光雷达位姿信息，以及提取所述图像数据中的相机位姿信息；

203、根据所述激光雷达位姿信息和所述相机位姿信息，构建点云空间与相机平面之间的投影关系；

本实施例中，通过提取点云数据中包含的激光雷达位姿信息，至少包括激光雷达所在的三维位置信息、方向信息，以及提取图像数据中的相机位姿信息，至少包括相机所在的二维位置信息、方向信息，以此来识别计算点云到图像的投影矩形，表示点云空间到相机平面的投影关系：pt(x,y,z)＝img(u,v)。

204、利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；

205、利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息；

本实施例中，多个图像处理模型可以优选为目标检测模型和语义分割模型的组合，其中，目标检测模型可以为二维目标检测模型或者三维目标检测模型。将图像数据输入目标检测模型中，来获得二维目标检测模型输出的二维空间检测框，或者获取三维目标检测模型的三维空间检测框。

具体的，通过使用目标检测模型，回归图像数据中的目标检测框，同时检测得到每个目标检测框对应的位置、尺寸、类别等多维度目标信息。除此之外，若目标检测框为三维空间检测框，还可以携带有不同目标检测框的目标id等跟踪信息。

本实施例中，在图像数据进行目标检测后，从目标细粒度来对图像数据进行识别，此处再通过语义分割模型来对图像数据进行语义信息识别，从像素点细粒度上来对图像数据进行识别。其中，语义分割模型也可以为二维语义分割模型或者三维语义分割模型，对应输出的语义信息也可以包括二维空间语义信息和三维空间语义信息。

具体的，通过语义分割模型回归每个像素点对应的类别、颜色、运动状态等语义信息。除此之外，也可以使用实例分割模型代替语义分割模型，来识别每个像素点对应类别信息和跟踪信息。

206、根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；

207、对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并利用预置时序模型，构建本次图像校准时以及预置过往次序图像校准时的驾驶车辆位姿的转换矩阵；

208、根据所述转换矩阵，对所述时序模型中的多层下采样层在所述过往次序输出的多层校准结果进行变换，并将变换后的多层校准结果拼接至所述鸟瞰特征图中；

209、对拼接后的鸟瞰特征图进行图像校准，得到驾驶场景的鸟瞰图。

本实施例中，首先将鸟瞰特征图输入到时序模型中，但不直接对鸟瞰特征图进行预测，而是获取本次图像校准时和过往次序(比如最近一次，最近第n次)的驾驶车辆位姿信息，对两者进行对比，得到转换矩阵，以用于后续对本次图像校准的驾驶车辆位姿进行调整，此处加入时序特征，可以得到本次更准确的车辆运动趋势。

具体的，每次时序模型进行推理时，会保存该时刻驾驶车辆的位姿信息(x，y，h)，包括二维坐标(x，y)和朝向h。当进行下一次推理时，通过对比新的位姿信息和该次历史的位姿信息，得到两者之间的对比结果(dx，dy，dh)，然后构建转换矩阵。

本实施例中，时序模型的卷积层会采用多层下采样层对鸟瞰特征图依次进行校准，得到对应的多层校准结果。而在每次时序模型进行推理时，还会保存该时刻鸟瞰特征图的多层校准结果，当进行下一次推理时，则将历史的多层校准结果通过转换矩阵进行变换，并拼接到当前的鸟瞰特征图中。加入时序特征后，再进行本次的推理。

具体的，由于拥有了历史驾驶车辆的位姿信息，时序模型有能力回归目标的速度，角速度，加速度等运动信息，并通过前述的运动信息来实现对鸟瞰特征图的校准，并生成驾驶场景的鸟瞰特征图。

本发明实施例中，通过驾驶车辆的历史位姿信息，来对当前驾驶车辆进行位姿空间变换，然后历史时序模型的输出结果拼接到鸟瞰特征图中，再在时序模型中进行场景推理，得到该驾驶场景的鸟瞰图，以减少驾驶场景的鸟瞰图生成的计算量，同时丰富了鸟瞰图中包含的信息。

请参阅图3，本发明实施例中驾驶场景的鸟瞰图生成方法的第三个实施例包括：

301、获取驾驶场景的点云数据和多个相机采集的图像数据；

302、基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；

303、利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息；

304、根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息；

305、根据所述第一坐标信息和所述第二坐标信息，分别判断所述各个点云是否在所述目标检测框内；

306、若是，则匹配目标检测框内的点云对应的多维度目标信息；

本实施例中，点云染色包括对目标检测框的点云染色和对语义信息的点云染色，此处先说明对目标检测框的点云染色。从每个识别得到目标检测框，通过投影关系依次判断每个点云是否落入每个目标检测框中，如果在某一个目标检测框内，则对该点运匹配该响应目标检测框的多维度语义信息，比如目标检测框的位置，尺寸，类别等。

具体的，第一坐标信息为每个点云的坐标(x_i，y_i)，第二作为信息为组成目标检测框的每个像素点的坐标集合{(x₁，y₁)，(x₂，y₂)，……(x_j，y_j)}，判断(x_i，y_i)是否在{(x₁，y₁)，(x₂，y₂)，……(x_j，y_j)}的坐标范围内，即可确定点云是否在目标检测框内。

另外，根据目标检测框的维度(二维空间或三维空间的检测框)，分别采用以下方式计算点云的第一坐标信息和目标检测框的第二坐标信息

1)若所述目标检测框为二维空间检测框，则根据所述投影关系，计算驾驶场景对应各个点云投影在二维空间上的坐标并作为第一坐标信息，以及提取所述多维度目标信息中的坐标并作为所述目标检测框对应的第二坐标信息；

2)若所述目标检测框为三维空间检测框，则根据所述投影关系，计算所述目标检测框投影在三维空间上的坐标并作为第二坐标信息，以及确定驾驶场景对应各个点云的坐标并作为第一坐标信息。

具体的，利用点云空间和平面空间之间的投影关系pt(x,y,z)＝img(u,v)，根据每个点云在三维空间的位置(x,y,z)，可以计算出投影在相机平面后的坐标(u,v)，或者通过图像数据每个像素点在相机平面后的坐标(u,v)，计算出投影在在三维空间的位置(x,y,z)。

307、根据所述投影关系，分别选取与所述各个点云最接近的像素点，并分别匹配所述各个点云对应的最接近的像素点的语义信息；

308、根据所述各个点云匹配到多维度目标信息和语义信息，得到点云场景信息；

本实施例中，再对语义信息的点云染色进行说明，此处具体可以通过插值法，来执行点云染色，包括最邻近插值法、线性插值法等。其中，通过最邻近插值法，根据投影关系，计算出每个点云投射在相机平面上的坐标信息，然后跟坐标信息，计算该点云投射后与每个像素点之间的距离，根据计算得到的距离确定与该点云最接近的像素点。获得该最接近的像素点的语义信息，然后和对应点云做匹配，将该像素点的语义信息加入该点云中。最终将点云匹配到的多维度目标信息和语义信息结合，即可得到点云场景信息。

309、根据所述点云数据，计算各个点云在预置基准鸟瞰图下的第三坐标信息，并根据所述第三坐标信息，确定所述基准鸟瞰图中与各个点云对应的像素点；

310、将各个点云对应的点云场景信息和点云数据添加至所述基准鸟瞰图中对应的像素点，得到对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

本实施例中，在拼接点云自身的点云数据和图像数据赋予的点云场景信息时，可以参照一个基准鸟瞰图，该基准鸟瞰图为仅包含主车的二维图。部分点云可以获得图像数据中对应的多维度目标信息和/或语义信息，将这些信息(多维度目标信息和/或语义信息在点云上的点云场景信息)和点云自身的信息(点云数据)在该基准鸟瞰图下进行拼接，即可得到鸟瞰特征图。

具体的，鸟瞰图自带相对于主车的二维坐标系，计算各个点云在该二维坐标系下的第三坐标信息，例如某个点云在该基准鸟瞰图下的坐标为(a，b)，则基准鸟瞰图下对坐标为(a，b)的像素点赋予该点云的点云场景信息和点云数据，得到鸟瞰特征图。

另外，在基准鸟瞰图的像素点上对点云场景信息和点云数据进行拼接时，拼接方式可以包括以下三种方式：在每个数据通道维度进行叠加；使用预先设置好的叠加规则进行叠加；直接对点云场景信息和点云数据执行相加等操作。

本发明实施例中，通过点云空间与相机平面的投影关系，将图像数据的目标检测和语义分割的输出添加到点云上，来生成鸟瞰图，同时使用图像数据补全类别等细节信息以及使用点云数据获得精确的坐标信息，使得生成的鸟瞰图更贴近驾驶场景。

上面对本发明实施例中驾驶场景的鸟瞰图生成方法进行了描述，下面对本发明实施例中驾驶场景的鸟瞰图生成装置进行描述，请参阅图4，本发明实施例中驾驶场景的鸟瞰图生成装置一个实施例包括：

获取模块401，用于获取驾驶场景的点云数据和多个相机采集的图像数据；

生成模块402，用于基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；

点云染色模块403，用于根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；

位姿转换模块404，用于对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

请参阅图5，本发明实施例中驾驶场景的鸟瞰图生成装置的另一个实施例包括：

具体的，所述生成模块402包括：

提取单元4021，用于提取所述点云数据中的激光雷达位姿信息，以及提取所述图像数据中的相机位姿信息；

投影构建单元4022，用于根据所述激光雷达位姿信息和所述相机位姿信息，构建点云空间与相机平面之间的投影关系。

具体的，预置维度空间为二维空间或三维空间，所述生成模块402还包括：

目标识别单元4023，用于利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；

语义识别单元4024，用于利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息。

具体的，所述点云染色模块403包括：

确定单元4031，用于根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息；

判别单元4032，用于根据所述第一坐标信息和所述第二坐标信息，分别判断所述各个点云是否在所述目标检测框内；

匹配单元4033，用于若是，则匹配目标检测框内的点云对应的多维度目标信息；根据所述投影关系，分别选取与所述各个点云最接近的像素点，并分别匹配所述各个点云对应的最接近的像素点的语义信息；根据所述各个点云匹配到多维度目标信息和语义信息，得到点云场景信息。

具体的，所述确定单元4031还用于：

若所述目标检测框为二维空间检测框，则根据所述投影关系，计算驾驶场景对应各个点云投影在二维空间上的坐标并作为第一坐标信息，以及提取所述多维度目标信息中的坐标并作为所述目标检测框对应的第二坐标信息；

若所述目标检测框为三维空间检测框，则根据所述投影关系，计算所述目标检测框投影在三维空间上的坐标并作为第二坐标信息，以及确定驾驶场景对应各个点云的坐标并作为第一坐标信息。

具体的，所述位姿转换模块404包括：

计算单元4041，用于根据所述点云数据，计算各个点云在预置基准鸟瞰图下的第三坐标信息，并根据所述第三坐标信息，确定所述基准鸟瞰图中与各个点云对应的像素点；

添加单元4042，用于将各个点云对应的点云场景信息和点云数据添加至所述基准鸟瞰图中对应的像素点，得到对应的鸟瞰特征图。

具体的，所述位姿转换模块404还包括：

矩阵构建单元4043，用于利用预置时序模型，构建本次图像校准时以及预置过往次序图像校准时的驾驶车辆位姿的转换矩阵；

拼接单元4044，用于根据所述转换矩阵，对所述时序模型中的多层下采样层在所述过往次序输出的多层校准结果进行变换，并将变换后的多层校准结果拼接至所述鸟瞰特征图中；

校准单元4045，用于对拼接后的鸟瞰特征图进行图像校准，得到驾驶场景的鸟瞰图。

本发明实施例中，通过驾驶车辆的历史位姿信息，来对当前驾驶车辆进行位姿空间变换，然后历史时序模型的输出结果拼接到鸟瞰特征图中，再在时序模型中进行场景推理，得到该驾驶场景的鸟瞰图，以减少驾驶场景的鸟瞰图生成的计算量，同时丰富了鸟瞰图中包含的信息；通过点云空间与相机平面的投影关系，将图像数据的目标检测和语义分割的输出添加到点云上，来生成鸟瞰图，同时使用图像数据补全类别等细节信息以及使用点云数据获得精确的坐标信息，使得生成的鸟瞰图更贴近驾驶场景。

上面图4和图5从模块化功能实体的角度对本发明实施例中的驾驶场景的鸟瞰图生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中驾驶场景的鸟瞰图生成设备进行详细描述。

图6是本发明实施例提供的一种驾驶场景的鸟瞰图生成设备的结构示意图，该驾驶场景的鸟瞰图生成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对驾驶场景的鸟瞰图生成设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在驾驶场景的鸟瞰图生成设备600上执行存储介质630中的一系列指令操作。

驾驶场景的鸟瞰图生成设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的驾驶场景的鸟瞰图生成设备结构并不构成对驾驶场景的鸟瞰图生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种驾驶场景的鸟瞰图生成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述驾驶场景的鸟瞰图生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述驾驶场景的鸟瞰图生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种驾驶场景的鸟瞰图生成方法，其特征在于，所述驾驶场景的鸟瞰图生成方法包括：

获取驾驶场景的点云数据和多个相机采集的图像数据；

基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；

根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；

对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

2.根据权利要求1所述的驾驶场景的鸟瞰图生成方法，其特征在于，所述基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系包括：

提取所述点云数据中的激光雷达位姿信息，以及提取所述图像数据中的相机位姿信息；

根据所述激光雷达位姿信息和所述相机位姿信息，构建点云空间与相机平面之间的投影关系。

3.根据权利要求1所述的驾驶场景的鸟瞰图生成方法，其特征在于，预置维度空间为二维空间或三维空间，所述利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果包括：

利用预置的目标检测模型，识别所述多个图像数据对应驾驶场景的目标检测框以及所述目标检测框对应的多维度目标信息，其中，所述目标检测框为二维空间检测框或者三维空间检测框；

利用预置的语义分割模型，识别所述多个图像数据对应各个像素点的语义信息，所述多个场景识别结果包括所述目标检测框、所述多维度目标信息和所述语义信息。

4.根据权利要求3所述的驾驶场景的鸟瞰图生成方法，其特征在于，所述根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息包括：

根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息；

根据所述第一坐标信息和所述第二坐标信息，分别判断所述各个点云是否在所述目标检测框内；

若是，则匹配目标检测框内的点云对应的多维度目标信息；

根据所述投影关系，分别选取与所述各个点云最接近的像素点，并分别匹配所述各个点云对应的最接近的像素点的语义信息；

根据所述各个点云匹配到多维度目标信息和语义信息，得到点云场景信息。

5.根据权利要求4所述的驾驶场景的鸟瞰图生成方法，其特征在于，所述根据所述投影关系，确定驾驶场景对应各个点云在所述维度空间上的第一坐标信息，以及确定所述目标检测框在所述维度空间上的第二坐标信息包括：

6.根据权利要求3所述的驾驶场景的鸟瞰图生成方法，其特征在于，所述对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图包括：

根据所述点云数据，计算各个点云在预置基准鸟瞰图下的第三坐标信息，并根据所述第三坐标信息，确定所述基准鸟瞰图中与各个点云对应的像素点；

将各个点云对应的点云场景信息和点云数据添加至所述基准鸟瞰图中对应的像素点，得到对应的鸟瞰特征图。

7.根据权利要求1-6中任一项所述的驾驶场景的鸟瞰图生成方法，其特征在于，所述对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图包括：

利用预置时序模型，构建本次图像校准时以及预置过往次序图像校准时的驾驶车辆位姿的转换矩阵；

根据所述转换矩阵，对所述时序模型中的多层下采样层在所述过往次序输出的多层校准结果进行变换，并将变换后的多层校准结果拼接至所述鸟瞰特征图中；

对拼接后的鸟瞰特征图进行图像校准，得到驾驶场景的鸟瞰图。

8.一种驾驶场景的鸟瞰图生成装置，其特征在于，所述驾驶场景的鸟瞰图生成装置包括：

获取模块，用于获取驾驶场景的点云数据和多个相机采集的图像数据；

生成模块，用于基于所述点云数据和所述图像数据，生成点云空间与相机平面之间的投影关系，以及利用预置的多个图像处理模型，分别对所述多个图像数据进行场景识别，对应得到预置维度空间的多个场景识别结果；

点云染色模块，用于根据所述投影关系，在所述维度空间上，对各所述场景识别结果进行点云染色，得到点云场景信息；

位姿转换模块，用于对所述点云场景信息和所述点云数据进行拼接，生成对应的鸟瞰特征图，并对所述鸟瞰特征图进行位姿转换，得到驾驶场景的鸟瞰图。

9.一种驾驶场景的鸟瞰图生成设备，其特征在于，所述驾驶场景的鸟瞰图生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述驾驶场景的鸟瞰图生成设备执行如权利要求1-7中任意一项所述的驾驶场景的鸟瞰图生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述驾驶场景的鸟瞰图生成方法的步骤。