CN115393386A

CN115393386A - 三维场景图的生成方法、装置、设备及可读存储介质

Info

Publication number: CN115393386A
Application number: CN202211311137.XA
Authority: CN
Inventors: 汪鹏飞; 马子昂
Original assignee: Hangzhou Huacheng Software Technology Co Ltd
Current assignee: Hangzhou Huacheng Software Technology Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-11-25
Anticipated expiration: 2042-10-25
Also published as: CN115393386B

Abstract

本申请公开了一种三维场景图的生成方法、装置、设备及可读存储介质。三维场景图的生成方法包括：获取目标场景的RGB图像、深度图像和图像采集设备采集RGB图像和深度图像时的位姿信息；基于RGB图像、深度图像和位姿信息，形成目标场景的三维语义地图；三维语义地图由多个语义面片组成，语义面片之间的关联性由顶点和边确定，边包含顶点之间的距离信息，语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；根据三维语义地图生成目标场景中各目标对象对应的场景模型，以形成目标场景的三维场景图。上述方案，能够生成多层次一体化的三维场景图，可以描述三维空间中不同元素之间的关联性，且系统耗时小，对实际应用友好。

Description

三维场景图的生成方法、装置、设备及可读存储介质

技术领域

本申请涉及三维地图技术领域，特别是涉及一种三维场景图的生成方法、装置、设备及可读存储介质。

背景技术

随着具体应用场景不断拓展，三维地图重建所涉及的场景图像的数量也不断增加。现有的三维地图生成方法中，一般通过获取三维点云来用于表示地图，但并未对生成的三维点云地图进行后续的处理和优化，未明确地图层次和数据组织形式，同时使用点云数据表示三维地图数据量庞大，不易于地图信息的管理。

发明内容

本申请主要解决的技术问题是提供一种三维场景图的生成方法、装置、设备及可读存储介质，能够生成多层次一体化的三维场景图，可以描述三维空间中不同元素之间的关联性。

为了解决上述问题，本申请第一方面提供了一种三维场景图的生成方法，所述三维场景图的生成方法包括：获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息；对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间；基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签；基于所述目标场景的特征点数据，生成由所述特征点构成的多个语义面片，形成所述目标场景的三维语义地图；所述三维语义地图由多个所述语义面片组成，所述语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接，所述语义面片之间的关联性由所述顶点和所述边确定，所述边包含所述顶点之间的距离信息，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图；其中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：

分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

其中，所述根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，包括：提取相邻两帧图像中每个所述可移动物体的几何中心信息，构建所述相邻两帧图像的语义面片之间的距离代价矩阵，基于所述距离代价矩阵通过匈牙利匹配算法计算所述相邻两帧图像中属于最佳匹配的可移动物体，基于语义标签信息的一致性对所述属于最佳匹配的可移动物体进行筛选，得到每个所述可移动物体在所述相邻两帧图像中的粗匹配结果；对所述粗匹配结果对应的每个所述可移动物体在所述相邻两帧图像中的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以每个所述可移动物体的几何中心为原点进行2D投影，对投影后的2D物体提取轮廓并对轮廓相似度进行匹配；对于所述轮廓相似度匹配成功的可移动物体，将该可移动物体在所述相邻两帧图像之间的语义面片进行融合，将融合后的语义面片作为该可移动物体在所述相邻两帧图像中的后一帧图像的语义面片并保存，同时计算该可移动物体在所述相邻两帧图像之间的位置差，基于所述位置差确定该可移动物体的速度信息，根据该可移动物体的速度信息预测该可移动物体在所述相邻两帧图像中的后一帧图像的新的几何中心信息并保存。

其中，所述目标对象包括静态物体；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的静态物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的静态物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述静态物体对应的语义面片集；根据每个所述静态物体对应的语义面片集，生成每个所述静态物体对应的场景模型，所述静态物体对应的场景模型包括所述静态物体的三维位姿信息、3D包围盒以及语义标签信息。

其中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

其中，所述目标对象还包括可行空间；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：将不具有语义面片的区域划分为所述可行空间，生成所述可行空间对应的场景模型，所述可行空间对应的场景模型采用三维拓扑图或二维拓扑图表示，所述可行空间对应的场景模型包括所述可行空间的三维或二维位姿信息，以及语义上的空间方位信息。

其中，所述目标对象还包括结构化环境物体；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述结构化环境物体对应的语义面片集；根据每个所述结构化环境物体对应的语义面片集，生成每个所述结构化环境物体对应的场景模型，所述结构化环境物体对应的场景模型包括所述结构化环境物体的三维位姿信息、3D包围盒以及语义标签信息。

其中，所述目标对象还包括房间区域；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：将所述目标场景对应的三维空间投影到二维平面上，形成二维栅格地图，使用基于维诺图的房间划分算法对二维栅格地图进行划分，确定所述房间区域，并生成所述房间区域对应的场景模型，所述房间区域对应的场景模型包括所述房间区域的三维位姿信息、3D包围盒以及语义标签信息。

其中，所述房间区域有多个，所述目标对象还包括楼层区域；所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，还包括：对所述目标场景中的多个所述房间区域进行全景分割，获取多个所述房间区域关于楼层区域的语义信息；将具有相同的楼层区域的语义信息的所有房间区域划分为同一楼层区域，并生成所述楼层区域对应的场景模型，所述楼层区域对应的场景模型包括所述楼层区域的三维位姿信息、3D包围盒以及语义标签信息。

为了解决上述问题，本申请第二方面提供了一种三维场景图的生成装置，所述三维场景图的生成装置包括：获取模块，所述获取模块用于获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；处理模块，所述处理模块用于基于所述RGB图像、所述深度图像和所述位姿信息，生成所述目标场景的三维语义地图；所述三维语义地图由多个语义面片组成，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；生成模块，所述生成模块用于根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图；其中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；所述生成模块执行所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

为解决上述问题，本申请第三方面提供了一种电子设备，所述声源方位的定位电子设备包括相互连接的处理器和存储器；所述存储器用于存储程序指令，所述处理器用于执行所述程序指令以实现上述第一方面的三维场景图的生成方法。

为解决上述问题，本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面的三维场景图的生成方法。

本发明的有益效果是：区别于现有技术的情况，本申请通过获取目标场景的RGB图像、深度图像和图像采集设备采集RGB图像和深度图像时的位姿信息，然后基于RGB图像中的RGB颜色信息，对RGB图像进行全景分割，得到目标场景的语义信息，对RGB图像和深度图像进行配准，得到对应的RGBD图像，RGBD图像将目标场景的语义信息映射到三维空间；然后基于RGBD图像和图像采集设备采集RGB图像和深度图像时的位姿信息，得到目标场景的特征点数据；特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签；于是基于目标场景的特征点数据，生成由特征点构成的多个语义面片，形成目标场景的三维语义地图；三维语义地图由多个语义面片组成，语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接，语义面片之间的关联性由顶点和边确定，边包含顶点之间的距离信息，语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；于是可以根据三维语义地图生成目标场景中各目标对象对应的场景模型，以形成目标场景的三维场景图。通过将带有三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息的语义面片作为整个场景图的底层信息，根据语义面片可以生成目标场景中各目标对象对应的场景模型，既可以描述同层次中的不同目标对象之间的关联性，又可以描述不同层次的目标对象之间的关联性，所生成的目标场景的三维场景图为多层次一体化场景，能够动态精确描述三维空间中多个元素之间的关联性，为人机交互、算法优化等提供可靠的先验信息；对于目标场景中具有自主移动能力的可移动物体，由于经过语义面片的生成，可以通过提取语义面片的语义标签信息的方式，快速获取某个可移动物体在某一时刻对应的语义面片，采取从语义到实例的数据关联匹配方法获取每个可移动物体的运动信息，并基于运动信息生成某一时刻下该可移动物体对应的场景模型，然后通过不同时刻下该可移动物体对应的场景模型，确定该可移动物体的移动轨迹，这种动态可移动物体的信息生成方式，基于前文的全景分割和三维空间映射配准的结果，直接在时间序列上进行动态物体关联，有效利用了初始的RGBD图像的计算结果，减小了系统耗时，对实际应用友好。

附图说明

图1是本申请三维场景图的生成方法一实施例的部分流程示意图；

图2是图1中步骤S12一实施例的流程示意图；

图3是本申请一应用场景中三维语义地图的生成流程示意图；

图4a是本申请一应用场景中三维场景图的模型构成结构示意图；

图4b是本申请一应用场景中可移动物体在相邻两帧图像中的关联匹配方法的流程示意图；

图5是本申请三维场景图的生成装置50一实施例的结构示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请三维场景图的生成方法一实施例的部分流程示意图。本实施例中的三维场景图的生成方法，包括以下步骤：

步骤S11：获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息。

步骤S12：基于所述RGB图像、所述深度图像和所述位姿信息，生成所述目标场景的三维语义地图；所述三维语义地图由多个语义面片组成，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息。

步骤S13：根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图。

上述方案，通过将带有三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息的语义面片作为整个场景图的底层信息，根据语义面片可以生成目标场景中各目标对象对应的场景模型，既可以描述同层次中的不同目标对象之间的关联性，又可以描述不同层次的目标对象之间的关联性，所生成的目标场景的三维场景图为多层次一体化场景，能够动态精确描述三维空间中多个元素之间的关联性，为人机交互、算法优化等提供可靠的先验信息。

请结合图2，图2是图1中步骤S12一实施例的流程示意图。在一实施例中，上述步骤S12具体包括：

步骤S121：基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息。

步骤S122：对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间。

步骤S123：基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签。

步骤S124：基于所述目标场景的特征点数据，生成由所述特征点构成的多个所述语义面片，形成所述目标场景的三维语义地图。

请结合图3，图3是本申请一应用场景中三维语义地图的生成流程示意图，在获取到目标场景的颜色信息（RGB信息）后，可以基于RGB信息的全景分割得到目标场景的语义信息，通过深度相机获取目标场景的深度信息（depth信息），然后配准RGB信息和depth信息，将语义信息映射到三维空间，得到RGBD信息，于是可以将RGBD信息和惯性测量单元（IMU）信息输入视觉惯性里程计（VIO），通过三维地标（3D landMark）以及二维网格（2D mesh）来构建三维语义地图。具体地，三维语义地图可以表示为三角面片形式，语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接。每个顶点数据分别包含{三维坐标，法向量，RGB颜色，全景标签}，语义面片之间的关联性由顶点和边确定，边包含顶点之间的距离信息。

请结合图4a，图4a是本申请一应用场景中三维场景图的模型构成结构示意图，三维场景图的模型的核心组件如图所示，自下而上分别包含语义面片层、静态物体和可移动物体层、可行空间和结构化环境物体层、房间区域层、楼层区域层。其中，语义面片层依托移动机器人或相关平台，输入视觉-惯性导航数据生成带有语义信息的三角面片作为整个三维场景图的底层信息；静态物体和可移动物体层中，静态物体主要包含非结构化的物体等目标对象，如桌椅、沙发等，可移动物体包含常见的移动物体等目标对象，如人体、宠物等；可行空间和结构化场景层中，可行空间表示三维空间中的无障碍、可通行的空间等目标对象，结构化环境物体包括墙体等目标对象；房间区域表示房间、客厅等目标对象；楼层区域则表示多个房间区域的组合，包含所有房间之间的交互信息。

可以理解的是，语义面片作为三维场景图的基元，不同程度的包含在其他组件中。其直接关联组件包括静态物体，一个静态物体可以建立多个连接到语义面片的边；另外，结构化环境物体的每个构成部分同样可以与语义面片相连。为了结构存储的便利性，语义面片中存储的信息仅包含环境所有的静态信息，环境中的动态信息由可移动物体的模型进行存储。

在一些实施例中，目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；上述步骤S13具体包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

可移动物体主要包括目标场景中的具有自主移动能力的可移动对象，如人、宠物等。在上述实施例中，由于经过语义面片的生成，可以通过提取语义面片的语义标签信息的方式，快速获取某个可移动物体在某一时刻对应的语义面片，生成此时刻下该可移动物体对应的场景模型，然后通过不同时刻下该可移动物体对应的场景模型，确定该可移动物体的移动轨迹。在其他实施例中，由于人、宠物等具有移动能力，且作为目标场景中主要的应答交互对象，因此可以通过卷积神经网络CNN独立进行识别跟踪，单独获取可移动物体的三维轨迹信息。于是，最终生成的可移动物体对应的场景模型包括该可移动物体的三维轨迹信息、3D网格模型以及语义标签信息，其中三维轨迹信息记录有该可移动物体的移动过程，3D网格模型描述该可移动物体的形状，语义标签信息标注人、宠物种类等信息。可以理解的是，可移动物体之间的关联性也可以通过边进行连接表示，边包含可通行距离信息以及空间方位信息，但与静态物体之间的边不同在于，其包含的时空属性更加复杂，例如可以包含人与人、人与宠物等之间的情绪、移动轨迹等；关于可移动物体与其他组件之间的关联性，例如，在通过卷积神经网络CNN独立进行识别跟踪，单独获取可移动物体的三维轨迹信息的方式中，可移动物体与语义面片之间可以无关联，又例如，可移动物体可以与最近的可行空间建立边，表示该可移动物体在该可行空间内的具体位姿，再例如，可移动物体也可以与结构化环境物体构建边，例如满足一定距离阈值的人和墙壁，给相应的边赋予语义标签信息，如“人在墙边”等等。

进一步地，上述根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息的步骤，具体可以包括：提取相邻两帧图像中每个所述可移动物体的几何中心信息，构建所述相邻两帧图像的语义面片之间的距离代价矩阵，基于所述距离代价矩阵通过匈牙利匹配算法计算所述相邻两帧图像中属于最佳匹配的可移动物体，基于语义标签信息的一致性对所述属于最佳匹配的可移动物体进行筛选，得到每个所述可移动物体在所述相邻两帧图像中的粗匹配结果；对所述粗匹配结果对应的每个所述可移动物体在所述相邻两帧图像中的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以每个所述可移动物体的几何中心为原点进行2D投影，对投影后的2D物体提取轮廓并对轮廓相似度进行匹配；对于所述轮廓相似度匹配成功的可移动物体，将该可移动物体在所述相邻两帧图像之间的语义面片进行融合，将融合后的语义面片作为该可移动物体在所述相邻两帧图像中的后一帧图像的语义面片并保存，同时计算该可移动物体在所述相邻两帧图像之间的位置差，基于所述位置差确定该可移动物体的速度信息，根据该可移动物体的速度信息预测该可移动物体在所述相邻两帧图像中的后一帧图像的新的几何中心信息并保存。

请结合图4b，对于任意可移动物体来说，可以根据每个时刻中该可移动物体对应的语义面片集，采取从粗到细，从语义到实例的数据关联匹配方法，对相邻两帧图像中的该可移动物体进行关联匹配，且可以提取该可移动物体的运动信息。具体地，根据前文的语义标签信息，可以提取当前时刻中的所有物体的语义面片集合，然后根据事先约定的动态的可移动物体的语义类别（如车、人、宠物等），对每一帧图像中的物体信息进行筛选，得到每帧的可移动物体的语义类别和对应的语义面片的集和。然后考虑语义信息的相邻帧图像的粗匹配，通过提取相邻两帧的每帧图像中每个语义类别的可移动物体的几何中心信息，构建相邻两帧图像之间对应的两张语义面片中的距离代价矩阵，将该距离代价矩阵作为输入，通过匈牙利匹配算法计算相邻两帧图像中属于最佳匹配的可移动物体，由于可能存在根据距离匹配计算所得到的相邻两帧图像中的两个可移动物体，虽然属于最佳匹配，但是这两个可移动物体根本不属于同一语义类别，因此，需要基于语义信息的一致性对最佳匹配的结果进行筛选，得到粗匹配计算的粗匹配结果。然后，可以进一步考虑形状和运动信息的相邻帧图像的精匹配，由于基于语义面片的三维形状匹配计算复杂不利于实时计算，而单独基于2D的投影对形状变化不敏感，因此可以通过选择最佳投影轴将语义面片重投影2D平面的方式进行形状匹配；首先，在粗匹配计算的粗匹配结果中，得到相邻两帧图像中满足粗匹配要求的可移动物体，然后通过对该满足粗匹配要求的可移动物体的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以可移动物体的几何中心为原点进行2D投影，对投影后的2D物体进行轮廓提取并进行相邻帧轮廓相似度比较；对于轮廓相似度匹配成功的可移动物体，将该可移动物体在相邻两帧之间的语义面片进行融合，同时计算相邻两帧之间位置差作为速度保存为该可移动物体的运动信息，得到精匹配计算的精匹配结果。另外，在获取第三帧图像数据之前，先通过可移动物体在第一帧图像和第二帧图像的运动信息来预测该可移动物体在第二帧图像的位置，并以该位置作为该可移动物体在第二帧图像的新的几何中心，参与到第三帧图像的粗匹配过程中，同时根据该可移动物体在第一帧图像和第二帧图像之间融合后的语义面片，重新计算该可移动物体在第二帧图像的最佳投影平面，参与到第三帧图像的精匹配过程中，实现可移动物体在第二帧和第三帧图像中的数据关联匹配。这种动态的可移动物体的匹配以及运动信息的生成方式，基于前文的全景分割和三维空间映射配准的结果，可以直接在时间序列上进行动态物体关联，有效利用了初始的RGBD图像的计算结果，减小了系统耗时，对实际应用友好。

在一些实施例中，目标对象还可以包括静态物体；上述步骤S13具体包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的静态物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的静态物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述静态物体对应的语义面片集；根据每个所述静态物体对应的语义面片集，生成每个所述静态物体对应的场景模型，所述静态物体对应的场景模型包括所述静态物体的三维位姿信息、3D包围盒以及语义标签信息。

静态物体主要包括目标场景中的非结构化的静态对象，如桌椅等。由于经过语义面片的生成，可以通过提取语义面片的语义标签信息的方式，快速获取某个静态物体对应的语义面片，并通过空间距离聚类进行优化，生成该静态物体对应的场景模型。静态物体对应的场景模型包括该静态物体的三维位姿信息、3D包围盒以及语义标签信息。可以理解的是，静态物体之间的关联性可以通过简单的边进行连接表示，边包含可通行距离信息以及空间方位信息，例如椅子在桌子下面；关于静态物体与其他组件之间的关联性，例如，一个静态物体可以建立多个连接到不同的语义面片的边，表示这些边对应的语义面片的顶点可以构成该静态物体，又例如，静态物体可以与最近的可行空间建立边，表示该静态物体在该可行空间内的具体位姿，再例如，静态物体可以与结构化环境物体构建边，例如满足一定距离阈值的椅子和墙壁，给相应的边赋予语义标签信息，如“椅子在墙边”等等。

在一些实施例中，目标对象还可以包括可行空间；此时，上述步骤S13还包括：将不具有语义面片的区域划分为所述可行空间，生成所述可行空间对应的场景模型，所述可行空间对应的场景模型采用三维拓扑图或二维拓扑图表示，所述可行空间对应的场景模型包括所述可行空间的三维或二维位姿信息，以及语义上的空间方位信息。

可以理解的是，可行空间表示三维空间中的无障碍物空间，因此，通过遍历所有区域，若某些区域不具有语义面片，则表示这些区域不存在静态物体以及结构化环境物体等障碍物，因此，可以将不具有语义面片的区域划分为可行空间，生成可行空间对应的场景模型。可行空间可以是由多个不具有语义面片的区域连通形成的，每一个不具有语义面片的区域作为一个节点，相邻节点之间通过边来表明连通关系，这些节点和节点之间的边即构成了可行空间对应的场景模型，表示为三维拓扑图或二维拓扑图的形式，可以记录可行空间的三维或二维位姿信息，即可行空间在三维空间中的位置，以及语义上的空间方位信息，即可行空间与结构化环境物体之间的关系、或者可行空间在房间区域中的位置等。

在一些实施例中，目标对象还可以包括结构化环境物体；此时，上述步骤S13还包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述结构化环境物体对应的语义面片集；根据每个所述结构化环境物体对应的语义面片集，生成每个所述结构化环境物体对应的场景模型，所述结构化环境物体对应的场景模型包括所述结构化环境物体的三维位姿信息、3D包围盒以及语义标签信息。

结构化环境物体主要包括目标场景中的结构化的静态对象，如墙壁、地板、天花板等。结构化环境物体与静态物体的生成方法类似，由于经过语义面片的生成，可以通过提取语义面片的语义标签信息的方式，快速获取某个结构化环境物体对应的语义面片，并通过空间距离聚类进行优化，生成该结构化环境物体对应的场景模型。结构化环境物体对应的场景模型包括该结构化环境物体的三维位姿信息、3D包围盒以及语义标签信息。可以理解的是，结构化环境物体之间的关联性可以通过边进行连接表示，边表明两个结构化环境物体之间的空间距离和方位信息；关于结构化环境物体与其他组件之间的关联性则与静态物体与其他组件之间的关联性相似，另外，结构化环境物体与其所在房间区域的边表示从属性关系，如“房间内的墙壁”。

在一些实施例中，目标对象还可以包括房间区域；此时，上述步骤S13还包括：将所述目标场景对应的三维空间投影到二维平面上，形成二维栅格地图，使用基于维诺图的房间划分算法对二维栅格地图进行划分，确定所述房间区域，并生成所述房间区域对应的场景模型，所述房间区域对应的场景模型包括所述房间区域的三维位姿信息、3D包围盒以及语义标签信息。

房间区域主要包括目标场景中的房间、客厅、厨房等对象，房间区域对应的场景模型对应的节点属性包括该房间区域的三维位姿信息、3D包围盒以及语义标签信息（如客厅、餐厅、过道等）。若两个房间区域之间是相邻的，则可以通过一条边进行连接，并添加语义标签信息，如“客厅与厨房通过门进行连接”。

在一些实施例中，房间区域有多个，目标对象还包括楼层区域；此时，上述步骤S13还包括：对所述目标场景中的多个所述房间区域进行全景分割，获取多个所述房间区域关于楼层区域的语义信息；将具有相同的楼层区域的语义信息的所有房间区域划分为同一楼层区域，并生成所述楼层区域对应的场景模型，所述楼层区域对应的场景模型包括所述楼层区域的三维位姿信息、3D包围盒以及语义标签信息。

楼层区域主要包括目标场景中的办公层、商业层、居住层等对象，楼层区域对应的场景模型对应的节点属性包括该楼层区域的三维位姿信息、3D包围盒以及语义标签信息。每个楼层区域包含多个房间区域，楼层区域对应的节点可以作为结构化场景的顶点与各房间区域对应的节点相连，每个房间区域与楼层区域构建一条边，描述各房间区域在该楼层区域中的空间方位。

可以理解的是，通过获取静态物体、可移动物体层、可行空间、结构化环境物体层、房间区域层、楼层区域层等目标对象对应的场景模型，使得移动机器人能够生成相应的导航路径，可以实现移动机器人在目标场景中的无障碍运行。

请参阅图5，图5是本申请三维场景图的生成装置50一实施例的结构示意图。本实施例中的三维场景图的生成装置50包括相互连接的获取模块500、处理模块502和生成模块504；所述获取模块500用于获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；所述处理模块502用于基于所述RGB图像、所述深度图像和所述位姿信息，生成所述目标场景的三维语义地图；所述三维语义地图由多个语义面片组成，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；所述生成模块504用于根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图。需要说明的是，本申请术语“相互连接”指的是电连接和/或无线连接。

在一些实施例中，所述处理模块502执行基于所述多帧RGB图像、所述多帧深度图像和所述位姿信息，生成各时刻对应的三维语义地图的步骤，具体包括：基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息；对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间；基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签；基于所述目标场景的特征点数据，生成由所述特征点构成的多个所述语义面片，形成所述三维语义地图。

在一些实施例中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

进一步地，所述生成模块504执行根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息的步骤，具体包括：提取相邻两帧图像中每个所述可移动物体的几何中心信息，构建所述相邻两帧图像的语义面片之间的距离代价矩阵，基于所述距离代价矩阵通过匈牙利匹配算法计算所述相邻两帧图像中属于最佳匹配的可移动物体，基于语义标签信息的一致性对所述属于最佳匹配的可移动物体进行筛选，得到每个所述可移动物体在所述相邻两帧图像中的粗匹配结果；对所述粗匹配结果对应的每个所述可移动物体在所述相邻两帧图像中的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以每个所述可移动物体的几何中心为原点进行2D投影，对投影后的2D物体提取轮廓并对轮廓相似度进行匹配；对于所述轮廓相似度匹配成功的可移动物体，将该可移动物体在所述相邻两帧图像之间的语义面片进行融合，将融合后的语义面片作为该可移动物体在所述相邻两帧图像中的后一帧图像的语义面片并保存，同时计算该可移动物体在所述相邻两帧图像之间的位置差，基于所述位置差确定该可移动物体的速度信息，根据该可移动物体的速度信息预测该可移动物体在所述相邻两帧图像中的后一帧图像的新的几何中心信息并保存。

在一些实施例中，所述目标对象包括静态物体；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的静态物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的静态物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述静态物体对应的语义面片集；根据每个所述静态物体对应的语义面片集，生成每个所述静态物体对应的场景模型，所述静态物体对应的场景模型包括所述静态物体的三维位姿信息、3D包围盒以及语义标签信息。

在一些实施例中，所述目标对象还包括可行空间；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：将不具有语义面片的区域划分为所述可行空间，生成所述可行空间对应的场景模型，所述可行空间对应的场景模型采用三维拓扑图或二维拓扑图表示，所述可行空间对应的场景模型包括所述可行空间的三维或二维位姿信息，以及语义上的空间方位信息。

在一些实施例中，所述目标对象还包括结构化环境物体；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片；通过空间距离对所述包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述结构化环境物体对应的语义面片集；根据每个所述结构化环境物体对应的语义面片集，生成每个所述结构化环境物体对应的场景模型，所述结构化环境物体对应的场景模型包括所述结构化环境物体的三维位姿信息、3D包围盒以及语义标签信息。

在一些实施例中，所述目标对象还包括房间区域；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：将所述目标场景对应的三维空间投影到二维平面上，形成二维栅格地图，使用基于维诺图的房间划分算法对二维栅格地图进行划分，确定所述房间区域，并生成所述房间区域对应的场景模型，所述房间区域对应的场景模型包括所述房间区域的三维位姿信息、3D包围盒以及语义标签信息。

在一些实施例中，所述房间区域有多个，所述目标对象还包括楼层区域；所述生成模块504执行根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，还包括：对所述目标场景中的多个所述房间区域进行全景分割，获取多个所述房间区域关于楼层区域的语义信息；将具有相同的楼层区域的语义信息的所有房间区域划分为同一楼层区域，并生成所述楼层区域对应的场景模型，所述楼层区域对应的场景模型包括所述楼层区域的三维位姿信息、3D包围盒以及语义标签信息。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。本实施例中的电子设备60包括相互连接的处理器602和存储器601；存储器601用于存储程序指令，处理器602用于执行存储器601中存储的程序指令，以实现上述任一三维场景图的生成方法实施例的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器。

具体而言，处理器602用于控制其自身以及存储器601以实现上述任一三维场景图的生成方法实施例的步骤。处理器602还可以称为CPU（Central Processing Unit，中央处理单元）。处理器602可能是一种集成电路芯片，具有信号的处理能力。处理器602还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（Application Specific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器602可以由集成电路芯片共同实现。

请参阅图7，图7是本申请计算机可读存储介质一实施例的结构示意图。本申请计算机可读存储介质70，其上存储有程序指令700，程序指令700被处理器执行时实现上述任一三维场景图的生成方法实施例中的步骤。

该计算机可读存储介质70具体可以为U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等可以存储程序指令700的介质，或者也可以为存储有该程序指令700的服务器，该服务器可将存储的程序指令700发送给其他设备运行，或者也可以自运行该存储的程序指令700。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、设备和装置，可以通过其它的方式实现。例如，以上所描述的设备和装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种三维场景图的生成方法，其特征在于，所述三维场景图的生成方法包括：

获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；

基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息；

对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间；

基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签；

基于所述目标场景的特征点数据，生成由所述特征点构成的多个语义面片，形成所述目标场景的三维语义地图；所述三维语义地图由多个所述语义面片组成，所述语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接，所述语义面片之间的关联性由所述顶点和所述边确定，所述边包含所述顶点之间的距离信息，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；

根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图；

其中，所述目标对象包括可移动物体；所述RGB图像和所述深度图像包括所述图像采集设备采集的各时刻的多帧图像，所述三维语义地图包括各时刻对应的三维语义地图；

所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，包括：

分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；

从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；

根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

2.根据权利要求1所述的三维场景图的生成方法，其特征在于，所述根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，包括：

提取相邻两帧图像中每个所述可移动物体的几何中心信息，构建所述相邻两帧图像的语义面片之间的距离代价矩阵，基于所述距离代价矩阵通过匈牙利匹配算法计算所述相邻两帧图像中属于最佳匹配的可移动物体，基于语义标签信息的一致性对所述属于最佳匹配的可移动物体进行筛选，得到每个所述可移动物体在所述相邻两帧图像中的粗匹配结果；

对所述粗匹配结果对应的每个所述可移动物体在所述相邻两帧图像中的语义面片进行奇异值分解，将最小特征值所在的向量作为投影轴，以每个所述可移动物体的几何中心为原点进行2D投影，对投影后的2D物体提取轮廓并对轮廓相似度进行匹配；

对于所述轮廓相似度匹配成功的可移动物体，将该可移动物体在所述相邻两帧图像之间的语义面片进行融合，将融合后的语义面片作为该可移动物体在所述相邻两帧图像中的后一帧图像的语义面片并保存，同时计算该可移动物体在所述相邻两帧图像之间的位置差，基于所述位置差确定该可移动物体的速度信息，根据该可移动物体的速度信息预测该可移动物体在所述相邻两帧图像中的后一帧图像的新的几何中心信息并保存。

3.根据权利要求1所述的三维场景图的生成方法，其特征在于，所述目标对象包括静态物体；

对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的静态物体所对应的语义标签信息的所有语义面片；

通过空间距离对所述包含有相同的静态物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述静态物体对应的语义面片集；

根据每个所述静态物体对应的语义面片集，生成每个所述静态物体对应的场景模型，所述静态物体对应的场景模型包括所述静态物体的三维位姿信息、3D包围盒以及语义标签信息。

4.根据权利要求3所述的三维场景图的生成方法，其特征在于，所述目标对象还包括可行空间；

将不具有语义面片的区域划分为所述可行空间，生成所述可行空间对应的场景模型，所述可行空间对应的场景模型采用三维拓扑图或二维拓扑图表示，所述可行空间对应的场景模型包括所述可行空间的三维或二维位姿信息，以及语义上的空间方位信息。

5.根据权利要求4所述的三维场景图的生成方法，其特征在于，所述目标对象还包括结构化环境物体；

对所述三维语义地图中的各语义面片提取语义标签信息，获取包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片；

通过空间距离对所述包含有相同的结构化环境物体所对应的语义标签信息的所有语义面片进行聚类优化，得到每个所述结构化环境物体对应的语义面片集；

根据每个所述结构化环境物体对应的语义面片集，生成每个所述结构化环境物体对应的场景模型，所述结构化环境物体对应的场景模型包括所述结构化环境物体的三维位姿信息、3D包围盒以及语义标签信息。

6.根据权利要求5所述的三维场景图的生成方法，其特征在于，所述目标对象还包括房间区域；

将所述目标场景对应的三维空间投影到二维平面上，形成二维栅格地图，使用基于维诺图的房间划分算法对二维栅格地图进行划分，确定所述房间区域，并生成所述房间区域对应的场景模型，所述房间区域对应的场景模型包括所述房间区域的三维位姿信息、3D包围盒以及语义标签信息。

7.根据权利要求6所述的三维场景图的生成方法，其特征在于，所述房间区域有多个，所述目标对象还包括楼层区域；

所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，还包括：

对所述目标场景中的多个所述房间区域进行全景分割，获取多个所述房间区域关于楼层区域的语义信息；

将具有相同的楼层区域的语义信息的所有房间区域划分为同一楼层区域，并生成所述楼层区域对应的场景模型，所述楼层区域对应的场景模型包括所述楼层区域的三维位姿信息、3D包围盒以及语义标签信息。

8.一种三维场景图的生成装置，其特征在于，所述三维场景图的生成装置包括：

获取模块，所述获取模块用于获取目标场景的RGB图像、深度图像和图像采集设备采集所述RGB图像和所述深度图像时的位姿信息；

处理模块，所述处理模块用于基于所述RGB图像中的RGB颜色信息，对所述RGB图像进行全景分割，得到所述目标场景的语义信息；对所述RGB图像和所述深度图像进行配准，得到对应的RGBD图像，所述RGBD图像将所述目标场景的语义信息映射到三维空间；基于所述RGBD图像和所述图像采集设备采集所述RGB图像和所述深度图像时的位姿信息，得到所述目标场景的特征点数据；所述特征点数据包括：特征点的三维坐标信息、法向量信息、RGB颜色信息以及语义信息标签；基于所述目标场景的特征点数据，生成由所述特征点构成的多个所述语义面片，形成所述目标场景的三维语义地图；所述三维语义地图由多个语义面片组成，所述语义面片通过三角网格进行表示，每个顶点连接三个顶点，顶点之间由边进行连接，所述语义面片之间的关联性由所述顶点和所述边确定，所述边包含所述顶点之间的距离信息，所述语义面片的顶点数据包含三维坐标信息、法向量信息、RGB颜色信息以及语义标签信息；

生成模块，所述生成模块用于根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型，以形成所述目标场景的三维场景图；

所述生成模块执行所述根据所述三维语义地图生成所述目标场景中各目标对象对应的场景模型的步骤，包括：分别对每个时刻对应的三维语义地图中的各语义面片提取语义标签信息，获取每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片；从每个时刻中包含有相同的可移动物体所对应的语义标签信息的所有语义面片中，确定出每个所述可移动物体对应的语义面片集；根据所述每个时刻中每个所述可移动物体对应的语义面片集，采取从语义到实例的数据关联匹配方法获取每个所述可移动物体的运动信息，并基于所述运动信息生成每个所述可移动物体对应的场景模型，所述可移动物体对应的场景模型包括所述可移动物体的三维轨迹信息、3D网格模型以及语义标签信息。

9.一种电子设备，其特征在于，所述电子设备包括相互连接的处理器和存储器；

所述存储器用于存储程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-7任一项所述的三维场景图的生成方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的三维场景图的生成方法。