CN108230437B

CN108230437B - 场景重建方法和装置、电子设备、程序和介质

Info

Publication number: CN108230437B
Application number: CN201711353866.0A
Authority: CN
Inventors: 伊帅; 杨昆霖; 陈凯歌; 闫俊杰; 王晓刚
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-11-09
Anticipated expiration: 2037-12-15
Also published as: CN108230437A

Abstract

本发明实施例公开了一种的场景重建方法和装置、电子设备、程序和介质，其中，方法包括：基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取所述第一图像序列的相机姿态信息；通过神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息；通过神经网络，获取所述第一图像序列中的运动目标；以及，通过神经网络获取所述第一图像序列中的道路信息；根据所述第一图像序列的相机姿态信息、所述深度信息、所述运动目标的位置信息和所述道路信息，将所述第一图像序列中的运动目标和道路映射到三维坐标系中。本发明实施例可提高了场景重建的准确性和速度。

Description

场景重建方法和装置、电子设备、程序和介质

技术领域

本发明涉及计算机视觉技术，尤其是一种场景重建方法和装置、电子设备、程序和介质。

背景技术

场景重建是指对物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的模型的关键技术。例如，在自动驾驶的应用场景中，场景重建包括道路重建、行人、汽车轨迹还原和目标定位。道路重建任务指给出摄像镜头拍摄的当前帧图片，将图片中的道路信息映射到三维坐标系中。行人、汽车轨迹还原任务指在一个双目图片序列中，还原出行人和汽车的运动轨迹。

发明内容

本发明实施例提供一种用于进行场景重建的技术方案。

根据本发明实施例的一个方面，提供的一种场景重建方法，包括：

基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取所述第一图像序列的相机姿态信息；通过神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息；通过神经网络，获取所述第一图像序列中的运动目标；以及，通过神经网络获取所述第一图像序列中的道路信息；

根据所述第一图像序列的相机姿态信息、所述深度信息、所述运动目标的位置信息和所述道路信息，将所述第一图像序列中的运动目标和道路映射到三维坐标系中。

可选地，在本发明上述各方法实施例中，所述多目摄像头包括：双目摄像头。

可选地，在本发明上述各方法实施例中，所述相机姿态信息包括：旋转矩阵和平移向量。

可选地，在本发明上述各方法实施例中，所述通过神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息，包括：

通过第一神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息。

可选地，在本发明上述各方法实施例中，所述通过神经网络，获取所述第一图像序列中运动目标，包括：

通过所述第二神经网络，对所述第一图像序列中的图像进行运动目标检测和跟踪，获得所述图像中运动目标的物体框，并对运动目标分配目标标识ID；其中，所述目标ID用于在所述图像序列中唯一标识一个运动目标；

通过所述第二神经网络输出所述图像中运动目标的物体框的位置信息和目标ID。

可选地，在本发明上述各方法实施例中，所述通过神经网络，获取所述第一图像序列中的道路信息，包括：

通过所述第三神经网络，对所述第一图像序列中的图像进行物体分割，获得物体分割结果；所述物体分割结果包括所述图像中的至少一个像素是否对应为道路。

可选地，在本发明上述各方法实施例中，根据所述第一图像序列的相机姿态信息、所述深度信息和所述运动目标的位置信息，将所述第一图像序列中的运动目标映射到三维坐标系中，包括：

以所述第一图像序列中的其中一帧图像作为当前图像，根据当前图像中运动目标的物体框的位置信息，将所述物体框中至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；

根据所述物体框中至少一个像素的齐次坐标和深度信息、所述当前图像的相机姿态信息和所述当前图像对应摄像镜头的相机参数，获取所述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

可选地，在本发明上述各方法实施例中，获取所述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标之后，还包括：

根据所述运动目标的物体框中至少一个像素对应的三维坐标，获取所述运动目标在三维坐标系中的位置信息。

可选地，在本发明上述各方法实施例中，还包括：

根据所述运动目标在三维坐标系中的位置信息，由所述第一图像序列中的所述运动目标的位置，形成所述运动目标的运动轨迹。

可选地，在本发明上述各方法实施例中，根据所述头第一图像序列的相机姿态信息、所述深度信息和所述道路信息，将所述第一图像序列中的道路映射到三维坐标系中，包括：

以所述第一图像序列中的其中一帧图像作为当前图像，根据所述物体分割结果，将当前图像中属于道路的至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；

根据所述属于道路的至少一个像素的齐次坐标和深度信息、所述当前图像的相机姿态信息和所述当前图像对应摄像镜头的相机参数，获取所述属于道路的至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

根据本发明实施例的另一个方面，提供的一种场景重建装置，包括：

信息获取模块，用于基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取所述第一图像序列的相机姿态信息；

深度信息获取模块，用于通过神经网络基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息；

运动目标获取模块，用于通过神经网络获取所述第一图像序列中的运动目标；

道路信息获取模块，用于通过神经网络获取所述第一图像序列中的道路信息；

映射模块，用于根据所述第一图像序列的相机姿态信息、所述深度信息、所述运动目标的位置信息和所述道路信息，将所述第一图像序列中的运动目标和道路映射到三维坐标系中。

可选地，在本发明上述各装置实施例中，所述多目摄像头包括：双目摄像头。

可选地，在本发明上述各装置实施例中，所述相机姿态信息包括：旋转矩阵和平移向量。

可选地，在本发明上述各装置实施例中，所述运动目标获取模块，具体用于：

通过神经网络，对所述第一图像序列中的图像进行运动目标检测和跟踪，获得所述图像中运动目标的物体框，并对运动目标分配目标标识ID；其中，所述目标ID用于在所述图像序列中唯一标识一个运动目标；以及输出所述图像中运动目标的物体框的位置信息和目标ID。

可选地，在本发明上述各装置实施例中，所述道路信息获取模块，具体用于：对所述第一图像序列中的图像进行物体分割，获得物体分割结果；所述物体分割结果包括所述图像中的至少一个像素是否对应为道路。

可选地，在本发明上述各装置实施例中，所述映射模块包括：

第一映射单元，用于以所述第一图像序列中的其中一帧图像作为当前图像，根据当前图像中运动目标的物体框的位置信息，将所述物体框中至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；以及根据所述物体框中至少一个像素的齐次坐标和深度信息、所述当前图像的相机姿态信息和所述当前图像对应摄像镜头的相机参数，获取所述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标；

第二映射单元，用于以所述第一图像序列中的其中一帧图像作为当前图像，根据所述物体分割结果，将当前图像中属于道路的至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；以及根据所述属于道路的至少一个像素的齐次坐标和深度信息、所述当前图像的相机姿态信息和所述当前图像对应摄像镜头的相机参数，获取所述属于道路的至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

可选地，在本发明上述各装置实施例中，还包括：

位置信息获取模块，用于根据所述运动目标的物体框中至少一个像素对应的三维坐标，获取所述运动目标在三维坐标系中的位置信息。

可选地，在本发明上述各装置实施例中，还包括：

轨迹形成模块，用于根据所述运动目标在三维坐标系中的位置信息，由所述第一图像序列中的所述运动目标的位置，形成所述运动目标的运动轨迹。

根据本发明实施例的另一个方面，提供的一种电子设备，包括上述任一所述的场景重建装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成本发明上述任一所述方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本发明上述任一所述方法中各步骤的指令。

根据本发明实施例的另一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明上述任一所述方法中各步骤的操作。

基于本发明上述实施例提供的场景重建方法和装置、电子设备、程序和介质，基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取该第一图像序列的相机姿态信息；通过神经网络，基于多目摄像头中至少两个摄像镜头采集的第二图像序列获取第一图像序列的深度信息，获取第一图像序列中的运动目标，以及获取第一图像序列中的道路信息；根据第一图像序列的相机姿态信息、深度信息、运动目标的位置信息和道路信息，将该图像序列中的运动目标和道路映射到三维坐标系中。本发明实施例基于多目摄像头来采集图像用于后续场景重建、而无需激光雷达等其他类型传感器，降低了成本；基于神经网络来获取图像的深度信息、检测运动目标和道路，基于深度信息和相机姿态进行场景重建，提高了场景重建的准确性，可以提升自动驾驶的安全性，并且不需要冗余计算多个传感器之间的数据，可以提升自动驾驶的响应速度。

本发明实施例可以应用于各种需要进行场景重建的场景，例如：自动驾驶场景。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明场景重建方法一个实施例的流程图。

图2为本发明场景重建方法另一个实施例的流程图。

图3为本发明场景重建装置一个实施例的结构示意图。

图4为本发明场景重建装置另一个实施例的结构示意图。

图5为本发明电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人通过研究发现，现有技术在自动驾驶中，现有技术通常是使用GPS来对汽车进行定位，使用激光雷达来识别立体内容，对行人、汽车进行检测追踪，但是由于激光雷达不能识别平面内容，所以不能实现道路识别，无法准确的实现道路重建；另外，多个激光雷达的使用增加了制造成本，且多个激光雷达之间会产生冗余计算，增加了自动驾驶系统的计算量，会影响自动驾驶系统的响应速度。

图1为本发明场景重建方法一个实施例的流程图。如图1所示，该实施例的场景重建方法包括：

102，基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取该第一图像序列的相机姿态信息。

本发明各实施例中的多目摄像头可以是双目摄像头、三目摄像头、四目摄像头等任意数量的摄像头。其中，多目摄像头由多个摄像镜头构成，几目摄像头便包括几个摄像镜头，多目摄像头中的多个摄像镜头可以是相同的摄像镜头，也可以是部分相同、其他部分不同的摄像镜头，还可以是各不相同的摄像镜头，例如，双目摄像头可以包括可见光摄像镜头和/或深度摄像镜头等。

本发明各实施例中，相机姿态信息可以包括：旋转矩阵R和平移向量t，分别表示由同一个摄像镜头采集的图像序列中的前后两帧图像之间的旋转角度和平移距离，其中的转矩阵R可以是一个3*3的矩阵，用于表示前后两帧图像中同一个向量的坐标变换关系，平移向量t可以是一个3维的向量，用于表示前后两帧图像中同一个向量的坐标平移关系，旋转矩阵R和平移向量t描述了一个三维空间坐标变换关系。其中的前后两帧图像，可以是该摄像镜头采集的图像序列中的前后两个关键帧图像，也可以是该图像序列中任何两帧相邻或不相邻图像。

在本发明各实施例的一个可选示例中，可以采用基于ORB(Oriented FAST andRotated BRIEF)特征点的同时定位与地图构建(simultaneous localization andmapping--SLAM)方法第二版(ORB_SLAM2)，提取前后两帧图像的ORB特征点，然后根据前后两帧图像的ORB特征点的匹配情况来估计相机姿态，获得相机姿态信息，对于每一帧图像，均可根据其与前一帧图像的ORB特征点的匹配情况，获得该帧图像的相机姿态信息。本示例基于计算机视觉的ORB_SLAM2方法，可以通过多目摄像头采集到的图像序列的相机姿态信息自动建立地图，以便后续可以将图像中的位置映射到三维坐标，不必借助GPS来进行定位，有助于解决自动驾驶中的定位问题。

之后，执行操作108。

104，通过神经网络，基于多目摄像头中至少两个摄像镜头采集的第二图像序列，获取上述第一图像序列的深度信息。

其中的深度信息即图像中各像素点表示的物体到采集该图像的摄像镜头之间的距离。

其中，第二图像序列包括上述第一图像序列，还包括由多目摄像头中采集第一图像序列的摄像镜头外其他至少一个摄像镜头采集的至少一个图像序列。

在本发明各实施例的一个可选示例中，可以采用深度神经网络算法，例如级联残差学习算法(Cascade Residual Learning，CRL)，基于至少两个摄像镜头采集的图像序列，获取上述第一图像序列的深度信息。基于本示例，采用深度神经网络算法可以大大提高估计图像中像素在现实世界深度信息的准确率，以便保障后续将运动目标和道路映射到三维坐标系时的准确性。

之后，执行操作108。

106，通过神经网络，获取上述第一图像序列中的运动目标。

本发明各实施例中的运动目标例如可以是车辆、行人、其他小动物等相对于静态建筑物运动或可运动的目标。

108，通过神经网络，获取上述第一图像序列中的道路信息。

本发明各实施例中的道路，例如可以包括一个场景中的静态建筑物(例如高楼、广告牌、路灯等)、路面、以及相对于静态建筑物相对静止的植物等。

其中，上述操作102、104、106和108之间没有执行顺序限制，四者可以同时执行，也可以以任意先后顺序执行。

另外，执行操作104、106和108的神经网络可以采用同一个神经网络，也可以采用不同的神经网络实现，例如，分别采用第一神经网络、第二神经网络和第三神经网络实现上述操作104、106和108。

110，根据上述第一图像序列的相机姿态信息、深度信息、运动目标的位置信息和道路信息，将上述第一图像序列中的运动目标和道路映射到三维坐标系中。

本发明各实施例中，针对图像序列执行上述操作102～110时，可以对该图像序列中的各帧图像均执行上述操作102～110，也可以按照预设方式，例如以随机抽取图像的方式或按照每间隔若干帧抽取一帧图像的方式，抽取该图像序列中的图像执行上述操作102～110。

基于本发明上述实施例提供的场景重建方法，基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取该第一图像序列的相机姿态信息；通过神经网络，基于多目摄像头中至少两个摄像镜头采集的第二图像序列获取第一图像序列的深度信息，获取第一图像序列中的运动目标，以及获取第一图像序列中的道路信息；根据第一图像序列的相机姿态信息、深度信息、运动目标的位置信息和道路信息，将该图像序列中的运动目标和道路映射到三维坐标系中。本发明实施例基于多目摄像头来采集图像用于后续场景重建、而无需激光雷达等其他类型传感器，降低了成本；基于神经网络来获取图像的深度信息、检测运动目标和道路，基于深度信息和相机姿态进行场景重建，提高了场景重建的准确性，可以提升自动驾驶的安全性，并且不需要冗余计算多个传感器之间的数据，可以提升自动驾驶的响应速度。

在本发明场景重建方法各实施例的一个实施方式中，操作106可以包括：

通过第二神经网络，对上述第一图像序列中的图像进行运动目标检测和跟踪，获得该图像中运动目标的物体框，并对各运动目标分配目标标识(ID)。其中，目标ID用于在上述图像序列中唯一标识一个运动目标；

通过第二神经网络输出上述图像中运动目标的物体框的位置信息和目标ID。其中的位置信息可以是物体框的四个顶点的位置坐标，也可以是物体框的中心位置和尺寸信息，其中的尺寸包括物体框的长度和宽度。

其中，对上述第一图像序列中的图像进行运动目标检测和跟踪时，可以针对该第一图像序列中的各帧图像均进行运动目标检测和跟踪，也可以按照预设方式，例如以随机抽取图像的方式或按照每间隔若干帧抽取一帧图像的方式，抽取该图像序列中的图像进行运动目标检测和跟踪。

例如，在本发明各实施例的一个可选示例中，第二神经网络可以使用人员追踪(Person of Interest，POI)算法，对输入的第一图像序列中每帧图像进行运动目标检测和跟踪，从每帧图像中检测出行人、汽车等运动目标的物体框，并对每个行人、汽车等运动目标分别分配一个唯一的目标ID，从而可以对图像中的每个运动目标进行追踪，输出每个物体框的位置信息及其对应的目标ID。

本示例中，基于深度神经网络多目标追踪算法实现对运动目标的检测追踪，可以更加准确的检测出运动目标在图像中的位置，处理速度快、效率高、无延迟，提高了道路重建的效率。

在本发明场景重建方法各实施例的另一个实施方式中，操作108可以包括：通过第三神经网络，对第一图像序列中的图像进行物体分割，获得物体分割结果(即，所属物体类别)，该物体分割结果包括图像中的至少一个像素是否对应为道路。

在本发明各实施例的一个可选示例中，三神经网络可以使用基于深度神经网络的图像分割算法，例如金字塔场景解析网络(Pyramid Scene Parsing Network，PSPNet)、全分辨率残差网络(Full-Resolution Residual Networks，FRRN)等分割算法，分别对输入的每帧图像进行物体分割，针对图像中关注的至少一个像素，输出用于表示物体分割结果的标签，可以根据需要设置只输出像素的标签是否对应为道路，如果是对应为道路可以将该像素设置为特定颜色(例如白色)，否则，将该图像中不对应为道路的像素设置为其他颜色(例如黑色)。

在本发明场景重建方法各实施例的又一个实施方式中，操作110中，根据头第一图像序列的相机姿态信息、深度信息和运动目标的位置信息，将该第一图像序列中的运动目标映射到三维坐标系中，可以包括：

以上述第一图像序列中的其中一帧图像作为当前图像，根据当前帧图像中运动目标的物体框的位置信息，将该物体框中至少一个像素在当前图像中的像素坐标转换为齐次坐标；

根据物体框中上述至少一个像素的齐次坐标和深度信息、当前图像的相机姿态信息和当前图像对应摄像镜头的相机参数，获取上述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

另外，在本发明场景重建方法的另一实施例中，获取物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标之后，还可以包括：

根据上述运动目标的物体框中至少一个像素对应的三维坐标，获取该运动目标在三维坐标系中的位置信息。

进一步地，在本发明场景重建方法的又一实施例中，还可以包括：根据各运动目标在三维坐标系中的位置信息，由上述摄像镜头第一图像序列中的同一运动目标的位置，形成该运动目标的运动轨迹。

例如，在当前帧图像中，可以将物体框中各像素在当前帧图像中的像素坐标[u,v])转换为齐次坐标P_uv(表示为[u,v,1])；

分别根据上述物体框中各像素的深度Z、齐次坐标P_uv，相机姿态信息中的旋转矩阵R和平移向量t，以及预设设置的相机参数K，由孔相机模型公式Z*P_uv＝K(R*P_w+t)，计算获得该像素在三维坐标系中的三维坐标P_w，从而将该像素点映射到三维坐标系。

将同一个物体框中的至少一个像素映射到三维坐标系后，可以对该物体框中各像素的三维坐标取平均值，得到该物体框对应的运动目标在三维坐标系中的坐标位置。依次将同一图像序列中多个帧图像中目标ID相同的运动目标的坐标位置连接起来，可得到各运动目标的运动轨迹。

在本发明场景重建方法各实施例的又一个实施方式中，操作110中，根据第一图像序列的相机姿态信息、深度信息和道路信息，将第一图像序列中的道路映射到三维坐标系中，可以包括：

以上述第一图像序列中的其中一帧图像作为当前图像，根据物体分割结果，将当前图像中属于道路的至少一个像素在当前图像中的像素坐标转换为齐次坐标；

根据上述属于道路的至少一个像素的齐次坐标和深度信息、当前图像的相机姿态信息和当前图像对应摄像镜头的相机参数，获取上述属于道路的至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

例如，根据物体分割结果，可以识别各像素是否对应为道路，例如可以根据物体分割结果中的颜色判断各像素是否对应为道路，分别针对当前帧图像中对应为道路的任一像素，将该像素在当前帧图像中的像素坐标[u,v])转换为齐次坐标P_uv(表示为[u,v,1])；

分别根据上述任一像素的深度Z、齐次坐标P_uv，相机姿态信息中的旋转矩阵R和平移向量t，以及预设设置的相机参数K，由孔相机模型公式Z*P_uv＝K(R*P_w+t)，计算获得该任一像素在三维坐标系中的三维坐标P_w，从而将该任一像素点映射到三维坐标系，由此将属于道路的所有像素映射到三维坐标系，从而实现了道路重建。

图2为本发明场景重建方法另一个实施例的流程图。该实施例以双目摄像头为例进行说明，本领域技术人员基于本发明实施例的记载可以知悉，对于三目摄像头、四目摄像头等其他摄像头的实现。如图2所示，该是实例的场景重建方法包括：

202，基于双目摄像头中第一摄像镜头采集的第一图像序列，获取该第一图像序列的相机姿态信息。

本发明各实施例中的双目摄像头可以包括第一摄像镜头和第二摄像镜头，其中第一摄像镜头采集的图像序列作为上述各实施例中的第一图像序列，第一摄像镜头和第二摄像镜头采集的图像序列作为上述各实施例中的第二图像序列。该操作202中可以仅针对第一图像序列或第二图像序列进行，也可以同时针对第一图像序列和第二图像序列进行，只要图2所示各实施例中处理的是相同图像序列即可，例如该图2所示实施例中的各操作仅针对第一图像序列或第二图像序列进行，或者同时针对第一图像序列和第二图像序列进行。为便于说明，该实施例以针对第一摄像镜头采集的第一图像序列的处理为例进行说明。

本发明各实施例中，相机姿态信息包括：旋转矩阵R和平移向量t，分别表示由该第一摄像镜头采集的第一图像序列中的前后两帧图像之间的旋转角度和平移距离，其中的转矩阵R可以是一个3*3的矩阵，平移向量t可以是一个3维的向量。其中的前后两帧图像，可以是该第一图像序列中的前后两个关键帧图像，也可以是该第一图像序列中任何两帧相邻或不相邻图像。

之后，执行操作208。

204，通过第一神经网络，基于双目摄像头采集的第一图像序列和第二图像序列，获取第一图像序列中至少一帧图像的深度信息。

之后，执行操作208。

206，通过第二神经网络，获取上述第一图像序列中上述至少一帧图像中的运动目标。

208，通过第三神经网络，获取上述第一图像序列中上述至少一帧图像中的道路信息。

其中，上述操作202、204、206和208之间没有执行顺序限制，四者可以同时执行，也可以以任意先后顺序执行。

210，根据上述至少一帧图像的相机姿态信息、深度信息、运动目标的位置信息和道路信息，将上述至少一帧图像中的运动目标和道路映射到三维坐标系中。

本发明各实施例的场景重建方法应用于自动驾驶场景等需要进行实时场景重建的场景时，可以按照依次针对预设方式抽取的每一帧图像执行上述场景重建方法实施例，或者依次针对图像序列中的每一帧图像执行上述场景重建方法实施例。

本发明实施例提供的任一种场景重建方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本发明实施例提供的任一种场景重建方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本发明实施例提及的任一种场景重建方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明场景重建装置一个实施例的结构示意图。该实施例的场景重建装置可用于实现本发明上述各场景重建方法实施例。如图3所示，该实施例的场景重建装置包括：获取模块，深度信息获取模块，运动目标获取模块，道路信息获取模块和映射模块。

信息获取模块，用于基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取所述该第一图像序列的相机姿态信息。

本发明各实施例中，相机姿态信息可以包括：旋转矩阵R和平移向量t，分别表示由同一个摄像镜头采集的图像序列中的前后两帧图像之间的旋转角度和平移距离。

基于本发明上述实施例提供的场景重建装置，基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取该第一图像序列的相机姿态信息；通过神经网络，基于多目摄像头中至少两个摄像镜头采集的第二图像序列获取第一图像序列的深度信息，获取第一图像序列中的运动目标，以及获取第一图像序列中的道路信息；根据第一图像序列的相机姿态信息、深度信息、运动目标的位置信息和道路信息，将该图像序列中的运动目标和道路映射到三维坐标系中。本发明实施例基于多目摄像头来采集图像用于后续场景重建、而无需激光雷达等其他类型传感器，降低了成本；基于神经网络来获取图像的深度信息、检测运动目标和道路，基于深度信息和相机姿态进行场景重建，提高了场景重建的准确性，可以提升自动驾驶的安全性，并且不需要冗余计算多个传感器之间的数据，可以提升自动驾驶的响应速度。

在本发明场景重建装置各实施例的一个实施方式中，运动目标获取模块具体用于：通过神经网络，对第一图像序列中的图像进行运动目标检测和跟踪，获得图像中运动目标的物体框，并对运动目标分配目标ID；其中，目标ID用于在图像序列中唯一标识一个运动目标；以及输出图像中运动目标的物体框的位置信息和目标ID。

在本发明场景重建装置各实施例的一个实施方式中，道路信息获取模块，具体用于通过神经网络，对第一图像序列中的图像进行物体分割，获得物体分割结果；物体分割结果包括图像中的至少一个像素是否对应为道路。

作为其中一个可选示例，在上述实施方式中，映射模块可以包括：第一映射单元和第二映射单元。其中：

第一映射单元，用于以第一图像序列中的其中一帧图像作为当前图像，根据当前图像中运动目标的物体框的位置信息，将该物体框中至少一个像素在当前图像中的像素坐标转换为齐次坐标；以及根据该物体框中至少一个像素的齐次坐标和深度信息、当前图像的相机姿态信息和当前图像对应摄像镜头的相机参数，获取上述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

第二映射单元，用于以第一图像序列中的其中一帧图像作为当前图像，根据物体分割结果，将当前图像中对应为道路的至少一个像素在当前图像中的像素坐标转换为齐次坐标；以及根据属于道路的至少一个像素的齐次坐标和深度信息、当前图像的相机姿态信息和当前图像对应摄像镜头的相机参数，获取属于道路的至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

图4为本发明场景重建装置另一个实施例的结构示意图。如图4所示，与图3所示实施例相比，该实施例的场景重建装置还包括：位置信息获取模块，用于根据上述运动目标的物体框中至少一个像素对应的三维坐标，获取运动目标在三维坐标系中的位置信息。

另外，再参见图4，在本发明场景重建装置的又一个实施例中，还可以包括：轨迹形成模块，用于根据上述运动目标在三维坐标系中的位置信息，由第一图像序列中的运动目标的位置，形成该运动目标的运动轨迹。

另外，本发明实施例还提供了一种电子设备，其可以包括如上任一实施例的场景重建装置。具体地，该电子设备例如可以是终端设备或者服务器等设备。

另外，本发明实施例提供的另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本发明上述任一实施例场景重建方法的操作。

图5为本发明电子设备一个应用实施例的结构示意图。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图5所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，基于多目摄像头中至少一个摄像镜头采集的第一图像序列，获取所述第一图像序列的相机姿态信息；通过神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息，通过神经网络，获取所述第一图像序列中的运动目标；以及，通过神经网络获取所述第一图像序列中的道路信息；根据所述第一图像序列的相机姿态信息、所述深度信息、所述运动目标的位置信息和所述道路信息，将所述第一图像序列中的运动目标和道路映射到三维坐标系中。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的场景重建方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU执行时，执行本申请的方法中限定的上述功能。

另外，本发明实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本发明任一实施例所述场景重建方法中各步骤的指令。

另外，本发明实施例还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明任一实施例所述场景重建方法中各步骤的操作。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种场景重建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多目摄像头包括：双目摄像头。

3.根据权利要求1所述的方法，其特征在于，所述相机姿态信息包括：旋转矩阵和平移向量。

4.根据权利要求1-3任一所述的方法，其特征在于，所述通过神经网络，基于所述多目摄像头中至少两个摄像镜头采集的第二图像序列，获取所述第一图像序列的深度信息，包括：

5.根据权利要求1-3任一所述的方法，其特征在于，所述通过神经网络，获取所述第一图像序列中运动目标，包括：

通过第二神经网络，对所述第一图像序列中的图像进行运动目标检测和跟踪，获得所述图像中运动目标的物体框，并对运动目标分配目标标识ID；其中，目标ID用于在所述图像序列中唯一标识一个运动目标；

6.根据权利要求1-3任一所述的方法，其特征在于，所述通过神经网络，获取所述第一图像序列中的道路信息，包括：

通过第三神经网络，对所述第一图像序列中的图像进行物体分割，获得物体分割结果；所述物体分割结果包括所述图像中的至少一个像素是否对应为道路。

7.根据权利要求5所述的方法，其特征在于，根据所述第一图像序列的相机姿态信息、所述深度信息和所述运动目标的位置信息，将所述第一图像序列中的运动目标映射到三维坐标系中，包括：

8.根据权利要求7所述的方法，其特征在于，获取所述物体框中至少一个像素的像素坐标在三维坐标系中对应的三维坐标之后，还包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求1-3任一所述的方法，其特征在于，根据所述第一图像序列的相机姿态信息、所述深度信息和所述道路信息，将所述第一图像序列中的道路映射到三维坐标系中，包括：

以所述第一图像序列中的其中一帧图像作为当前图像，根据物体分割结果，将当前图像中属于道路的至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；

11.一种场景重建装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述多目摄像头包括：双目摄像头。

13.根据权利要求11所述的装置，其特征在于，所述相机姿态信息包括：旋转矩阵和平移向量。

14.根据权利要求11-13任一所述的装置，其特征在于，所述运动目标获取模块，具体用于：

通过神经网络，对所述第一图像序列中的图像进行运动目标检测和跟踪，获得所述图像中运动目标的物体框，并对运动目标分配目标标识ID；其中，目标ID用于在所述图像序列中唯一标识一个运动目标；以及输出所述图像中运动目标的物体框的位置信息和目标ID。

15.根据权利要求11-13任一所述的装置，其特征在于，所述道路信息获取模块，具体用于：对所述第一图像序列中的图像进行物体分割，获得物体分割结果；所述物体分割结果包括所述图像中的至少一个像素是否对应为道路。

16.根据权利要求14所述的装置，其特征在于，所述映射模块包括：

第二映射单元，用于以所述第一图像序列中的其中一帧图像作为当前图像，根据物体分割结果，将当前图像中属于道路的至少一个像素在所述当前图像中的像素坐标转换为齐次坐标；以及根据所述属于道路的至少一个像素的齐次坐标和深度信息、所述当前图像的相机姿态信息和所述当前图像对应摄像镜头的相机参数，获取所述属于道路的至少一个像素的像素坐标在三维坐标系中对应的三维坐标。

17.根据权利要求16所述的装置，其特征在于，还包括：

18.根据权利要求17所述的装置，其特征在于，还包括：

19.一种电子设备，其特征在于，包括权利要求11-18任一所述的场景重建装置。

20.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-10任一所述方法的操作。

21.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-10任一所述方法中各步骤的指令。

22.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-10任一所述方法中各步骤的操作。