CN117351157A

CN117351157A - 单视图三维场景位姿估计方法、系统及设备

Info

Publication number: CN117351157A
Application number: CN202311651504.5A
Authority: CN
Inventors: 方顺; 冯星; 张志恒; 崔铭; 朱家宝; 熊宏康; 裴瑶; 吕艳娜; 张亚男; 贺斌
Original assignee: Beijing Xuanguang Technology Co ltd
Current assignee: Beijing Xuanguang Technology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-01-05
Anticipated expiration: 2043-12-05
Also published as: CN117351157B

Abstract

本发明属于3D场景重建领域，具体涉及了一种基于单视图三维场景位姿估计方法、系统及设备，旨在解决现有技术无法仅根据一张图像对包含多个对象的复杂场景进行精确三维重建和位姿估计的问题。本发明包括：获取待处理图片；对待处理图片进行2D目标检测，获得所有目标的2D包围盒图片；基于待处理图片和所有目标的2D包围盒图片，通过基于神经网络的六路径3D包围盒构建网络，获取3D包围盒。本发明通过采用6个网络从不同的维度对3D对象的姿态进行估计，实现了仅通过单视图对场景及场景中的目标的位姿准确估计和三维重建，并分别设置5个损失函数对网络进行训练，最终获得的模型能够实现三维场景及场景中对象的自动重建，提高了模型重建的效率。

Description

单视图三维场景位姿估计方法、系统及设备

技术领域

本发明属于3D场景重建领域，具体涉及了一种基于单视图三维场景位姿估计方法、系统及设备。

背景技术

随着计算视觉技术的发展和应用需求的增长，理解和处理复杂的三维环境的需求日益增长。特别是在自动驾驶、机器人导航、3D打印、3维重建、场景还原等应用场景中，准确识别并理解目标及周边的3D环境重要。

对于这种类型的场景来说，一个核心问题是如何精确地估计其中3D物体的位置和姿态。然而，在实际情况中，3D场景常常由大量的物体组成，而且这些物体可能存在遮挡或部分不可见的现象，不同的对象对于单幅图像的重要性不同，这使得精确地定位和识别每一个物体的准确位姿变得困难重重。另外，现有的位姿识别方法通常需要通过多张图像或庞大的点云数据。因此，如何仅通过单张图像，在复杂且的环境中找到一种有效的方法来精确地恢复每个3D物体的姿态，并据此进行后续的3D建模工作，已经成为当前研究领域的热点问题。

发明内容

为了解决现有技术中的上述问题，即现有技术无法仅根据一张图像对包含多个对象的复杂场景进行精确三维重建和位姿估计的问题，本发明提供了一种单视图三维场景位姿估计方法，所述方法包括：

步骤S1，获取待处理图片；

步骤S2，对待处理图片进行2D目标检测，获得待处理图片中所有目标的2D包围盒图片；

步骤S3，基于所述待处理图片和所有目标的2D包围盒图片，通过基于神经网络的六路径3D包围盒构建网络，获取3D包围盒，3D包围盒包含三维场景位姿信息；

所述基于神经网络的六路径3D包围盒构建网络，包括并行的几何网络和对象网络支路；所述几何网络包括并行的第一几何网络支路、第二几何网络支路；所述对象网络支路包括并行的第一对象网络支路、第二对象网络支路、第三对象网络支路和第四对象网络支路；第一几何网络支路、第二几何网络支路、第一对象网络支路和第二对象网络支路均由残差-多层感知机子网络构成，第三对象网络支路和第四对象网络支路均由分类子网络和残差-多层感知机子网络组构成；

第二几何网络支路、第一对象网络支路、第二对象网络支路、第三对象网络支路和第四对象网络支路的输出端汇合为基于神经网络的六路径3D包围盒构建网络输出端。

所述残差-多层感知机子网络组为多个并行的残差-多层感知机子网络。

在一些优选的实施方式中，所述步骤S3，具体包括：

步骤S301，基于所述待处理图片通过第二几何网络支路获取相机姿态信息；

基于所述所有目标的2D包围盒图片，分别通过第一对象网络支路和第二对象网络支路获取投影偏移和距离；

对所述2D包围盒图片分别通过第三对象网络支路和第四对象网络支路获取每个目标的旋转值和每个目标的大小值；具体包括：

对所述2D包围盒图片分别进行针对大小属性的分类和针对角度属性的分类，获得大小分类的2D包围盒图片和角度分类的2D包围盒图片；

将每个目标的角度分类的2D包围盒图片通过第一残差-多层感知机子网络组获取每个目标的旋转值；将每个目标的大小分类的2D包围盒图片通过残差-多层感知机子网络组获取每个目标的大小值；

步骤S302，基于所有的所述相机姿态信息、投影偏移、距离、旋转值和大小值构建每个目标的3D包围盒，3D包围盒包含三维场景位姿信息。

本步骤通过基于神经网络的六路径3D包围盒构建网络的不同路分别获取构建3D包围盒的所需信息，避免了传统方法在没有深度信息的情况下，用2D包围盒中心来估计3D包围盒中心的偏差较大的问题，使得仅通过单张2D图像完成3D重建的精确度得到提高。

在一些优选的实施方式中，所述3D包围盒，参数表示为：

其中，为三维向量表示物体3D包围盒8个顶点的世界坐标，/>为三维向量表示3D包围盒的中心点世界坐标，/>是世界坐标系下沿垂直轴方向的方向角，/>为3×3矩阵表示3D包围盒的朝向，/>为三维向量表示3D包围盒的大小，上角标W是世界坐标系world coordinate，/>是3D包围盒的数学表达式。

在一些优选的实施方式中，其3D包围盒中心点坐标的计算方法为：

表示3D包围盒的中心点的世界坐标；/>表示相机外参的平移参数，第一视角的平移向量为0向量；/>表示相机中心到3D物体中心的距离；/>表示世界坐标系下3D包围盒的朝向；/>表示俯仰角pitch；/>表示横滚角roll；/>表示相机内参，包括焦距、主点和畸变系数；/>表示输入图片在2D平面的中心点坐标；/>表示3D包围盒中心投影到2D平面时与2D包围盒中心的偏移值。

在一些优选的实施方式中，所述3D包围盒，其3D包围盒的中心点投影公式为：

表示可微分的投影函数；/>表示3D包围盒的中心点的世界坐标； />表示3D包围盒中心投影到2D平面时2D包围盒的中心；投影函数为已知量；/>为相机的俯仰角pitch，/>为相机的横滚角roll，/>为3D包围盒中心投影到2D平面时与2D包围盒中心的偏移值，/>为相机中心到3D物体中心的距离。

在一些优选的实施方式中，所述基于神经网络的六路径3D包围盒构建网络，其训练方法包括：

步骤A1，获取训练集图片；

步骤A2，将训练集图片输入待训练的基于神经网络的六路径3D包围盒构建网络，获取训练集相机姿态信息、训练集投影偏移、训练集距离、训练集旋转值和训练集大小值，同时通过第一几何网络支路获取训练集3D场景布局信息，计算总损失函数：

；

其中，表示总损失函数，/>表示几何网络损失函数，/>表示对象网络支路损失函数，/>表示3D包围盒损失函数，/>表示投影损失函数/>表示物理损失函数，表示权重系数；

步骤A3，调整模型参数，重复步骤A2直至所述总损失函数低于设定的阈值，获得训练好的基于神经网络的六路径3D包围盒构建网络。

本发明通过为几何网络支路和对象网络支路均单独设置损失函数外，还额外增加了3D包围盒损失函数、投影损失函数和物理损失函数，对重建的全局-局部进行多个维度的优化，能够提高模型还原的逼真度，并且实现了在信息量不足的情况下的精确重建和位姿估计。

在一些优选的实施方式中，所述几何网络损失函数，具体包括：

和/>分别表示俯仰角的相机姿态损失和横滚角的相机姿态损失，/>表示在世界坐标系下3D场景布局信息中心点的损失，/>表示在世界坐标系下3D场景布局信息的航向角的损失，/>表示在世界坐标系下3D场景布局信息的大小损失；/>表示处于世界坐标系下。

本发明的几何损失，针对模型生成的场景包围盒的相机姿态进行优化，能够提高姿态识别的准确度，为后续的构建3D包围盒提供准确信息。

在一些优选的实施方式中，所述物理损失函数，具体包括：

其中，表示3D包围盒的顶点，/>表示世界坐标系下3D场景布局信息的3D包围盒的第/>个顶点坐标，/>表示每个目标的3D包围盒的第/>个顶点的世界坐标，/>表示序号。

由于待处理的图像中，通常会出现遮挡、或部分不可见的情况，并且由于缺少深度信息，导致现有技术中出现难以一张图像进行3D重建的问题，本发明通过添加物理损失函数的方式优化模型，实质为确保生成的不同目标的包围盒与场景布局的包围盒不存在交叉。

在一些优选的实施方式中，所述对象网络支路损失函数，包括：

其中，表示待处理图片中目标的数量，/>表示第/>个目标的第一对象网络支路的损失，/>表示第/>个目标的第二对象网络支路的损失，/>表示第/>个目标的第四对象网络支路的损失，/>表示第/>个目标的第三对象网络支路的损失，/>表示序号，/>表示第三对象网络支路的分类损失，/>表示第三对象网络支路的回归损失，/>表示第四对象网络支路的分类损失，/>表示第四对象网络支路的回归损失。

本发明的对象网络支路损失函数，分别针对模型生成的投影偏移、距离、各个目标的旋转角度和各个目标的大小进行优化，使得整体网络能够对单个目标信息生成的准确性提高，并使模型能够同时对包含多个目标的图像进行重建，提高了建模效率。

在一些优选的实施方式中，所述3D包围盒损失函数，具体包括：

其中，表示待处理图片中目标的数量，/>表示世界坐标系下第/>个目标的3D包围盒中心点坐标，/>表示世界坐标系下第/>个目标的3D包围盒沿世界坐标垂直轴方向的方向角，/>表示世界坐标系下第/>个目标的3D包围盒的世界坐标朝向，表示世界坐标系下第/>个目标的3D包围盒的大小，/>表示3D包围盒的数学表达式，/>表示世界坐标系下第/>个目标的3D包围盒顶点的真实值，/>表示处于世界坐标系下，/>表示序号。

本发明通过设置3D包围盒损失函数针对生成的包围盒各个顶点的坐标精度进行优化，提高了生成模型整体的逼真程度和准确性。

在一些优选的实施方式中，所述投影损失函数，具体包括：

其中，表示3D包围盒的顶点，/>表示世界坐标系下每个3D包围盒的第/>个顶点坐标，/>表示相机的内参，/>表示俯仰角pitch；/>表示横滚角roll，/>表示相机的外参，/>表示将每个3D包围盒的顶点投影到相机所在的2D图像平面获得2D包围盒的可微分的投影函数，/>表示2D包围盒顶点坐标真值。

由于本发明是通过单张图像进行还原，单张2D图像缺少深度信息，因此通过通过2D包围盒中心来估计3D包围盒中心，但是会产生较大的偏差，通过投影损失来降低偏差，最终提高了构建3D包围盒的精度。

本发明的另一方面，提出了一种单视图三维场景位姿估计系统，所述系统包括：

图像获取模块、目标检测模块和模型重建模块；

图像获取模块，配置为获取待处理图片；

目标检测模块，配置为对待处理图片进行2D目标检测，获得待处理图片中所有目标的2D包围盒图片；

模型重建模块，配置为基于所述待处理图片和所有目标的2D包围盒图片，通过基于神经网络的六路径3D包围盒构建网络，获取3D包围盒，3D包围盒包含三维场景位姿信息；

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的单视图三维场景位姿估计方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的单视图三维场景位姿估计方法。

本发明的有益效果：

（1）本发明通过采用6个网络从不同的维度对3D对象的姿态进行估计，实现了仅通过单视图对场景及场景中的目标的位姿准确估计和三维重建，实现了3D物体在场景中姿态的精确还原；

（2）本发明通过分别设置5个损失函数对网络进行训练，最终获得的模型能够实现三维场景及场景中对象的自动重建，极大提高了模型重建的效率；

（3）本发明通过用2D包围盒来估计3D包围盒的中心，并通过多种维度的损失函数进行优化，实现了在没有深度信息的情况下，精确的场景重建，提高了三维重建的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明实施例中单视图三维场景位姿估计方法的流程示意图；

图2是本发明实施例中基于神经网络的六路径3D包围盒构建网络的网络结构图；

图3是本发明实施例中通过基于神经网络的六路径3D包围盒构建网络的网络进行3D位姿估计的流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了更清晰地对本发明单视图三维场景位姿估计方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的单视图三维场景位姿估计方法，包括步骤S1-步骤S3，各步骤详细描述如下：

步骤S1，获取待处理图片；以输入一张室内场景图片为例，将输入图片裁剪为512*512的正方形后作为待处理图片。

本实施例中的2D目标检测，采用Faster R-CNN目标检测网络、R-FCN目标检测网络（Region-basedFully Convolutional Networks）或DCN目标检测网络（DeformableConvolutional Networks）实现，2D目标检测网络的输出为待处理图片中所有目标的2D包围盒图片，所生成的2D包围盒图片分辨率保持不变。

本实施例最终要构建的3D包围盒参数表示为：

其中，为三维向量表示物体3D包围盒8个顶点的世界坐标，/>为三维向量表示3D包围盒的中心点世界坐标，/>是世界坐标系下沿垂直轴方向的方向角，/>为3×3矩阵表示3D包围盒的朝向，/>为三维向量表示3D包围盒的大小，上角标W是世界坐标系world coordinate，/>是3D包围盒的数学表达式，3D包围盒的表达式为已知式；而/>为未知量，需要基于2D待处理图像通过基于神经网络的六路径3D包围盒构建网络进行预测；

将场景包围盒和目标包围盒均通过参数表示。

由于待处理图像为2D图像，没有深度信息，需要用2D包围盒中心来估计3D包围盒的中心点，由于会产生较大误差，因此通过中心点计算公式进行计算：

表示3D包围盒的中心点的世界坐标；/>表示相机外参的平移参数，第一视角的平移向量为0向量；/>表示相机中心到3D物体中心的距离；/>表示俯仰角pitch；/>表示横滚角roll；/>表示相机内参，包括焦距、主点和畸变系数；/>表示输入图片在2D平面的中心点坐标；/>表示3D包围盒中心投影到2D平面时与2D包围盒中心的偏移值；

有3D包围盒的中心点投影公式：

表示可微分的投影函数；其中，投影函数为已知量；相机的俯仰角/>和横滚角为未知量，需要通过本实施例中的几何网络进行预测，偏移值/>、距离/>、大小值和旋转值即方向角/>为未知量，需要通过本实施例中的对象网络支路进行预测；而输入图片在2D平面的中心点坐标为已知量。

所述基于神经网络的六路径3D包围盒构建网络，如图2所示，包括并行的几何网络和对象网络支路；所述几何网络包括并行的第一几何网络支路、第二几何网络支路；所述对象网络支路包括并行的第一对象网络支路、第二对象网络支路、第三对象网络支路和第四对象网络支路；第一几何网络支路、第二几何网络支路、第一对象网络支路和第二对象网络支路均由残差-多层感知机子网络构成，第三对象网络支路和第四对象网络支路均由分类子网络和残差-多层感知机子网络组构成；

本实施例中的残差-多层感知机子网络，包括残差网路RestNet和多层感知机MLPs，作为本发明用于参数估计的核心网络。所有的RestNet由50层网络构成，设置输入分辨率为512*512，输出为2048维特征向量；MLPs为2层全连接层，第1层全连接层包括1024个节点，全连接到RestNet输出的2048个特征向量；第2层全连接层包括个节点，在本实施例的不同位置/>的数量不同，根据包围盒8个顶点的数据量确定。设置MLPs的学习率为0.0001，Batch Size是1。

在本实施例中，所述步骤S3，如图3所示，具体包括：

在本实施例中，第一几何网络支路生成3D场景布局信息，即生成的一个3D包围盒8个顶点的、/>和/>，其中/>为三维向量，/>为3*3矩阵，/>为三维向量，总共15个值，一个包围盒包括8个顶点，将第一几何网络支路的MLPs的第2层全连接层的节点个数设置为/>；

第二几何网络支路生成相机姿态信息，对应获取中心点计算公式中的俯仰角、横滚角/>，并且相机姿态信息/>为3*3矩阵，因而设定第二几何支路的MLPs的第2层全连接层的节点个数设置为/>。

在本实施例中，第一对象网络支路和第二对象网络支路，输入的是2D包围盒图片，在2D包围盒图片中所有的3D对象都用2D框框起来，通过第一对象网络支路输出投影偏离，对应中心点计算公式中的，由于投影偏离/>是二维向量，因此第一对象网络支路的MLPs的第2层全连接层的节点个数设置为/>；通过第二对象网络支路输出距离，对应中心点计算公式中/>，/>为一个数值，因此设置第二对象网络支路的MLPs的第2层全连接层的节点个数为/>；

在本实施例中，第三对象网络支路和第四对象网络支路中的残差-多层感知机子网络组为预定义模板的网络。由于在预测3D对象的属性时，存在较大误差，尤其在对三维向量表示3D包围盒的大小和世界坐标系下沿垂直轴方向的方向角/>进行预测时，因此通过预定义模板的残差-多层感知机子网络组进行预定义分类，每个分类对应一种预定义模板的残差-多层感知机子网络。其中预定义模板的残差-多层感知机子网络组前面增加分类网络，通过softmax算出分类，然后不同分类走不同的预定义模板的残差-多层感知机子网络。此处的预定义模板的残差-多层感知机子网络数量是根据预定义模板的数量来确定。三维向量表示3D包围盒的大小/>是三维向量，因此第三对象子网络第2层全连接层的节点个数设置为/>，而/>为3*3矩阵，因此第四对象子网络第2层全连接层的节点个数设置为/>。

将相机姿态信息、投影偏移、距离、旋转值和大小值根据3D包围盒参数公式和中心点计算公式即可获得3D包围盒。

在本实施例中，所述基于神经网络的六路径3D包围盒构建网络，其训练方法包括：

步骤A1，获取训练集图片；

在本实施例中，训练集图片为显式表示的3D场景，点云、体素、网格素材各1万个；

每个3D场景4个侧面；由1倍到5倍包围盒深度的距离，共5个距离；通过渲染烘焙的方式，生成5张1024*1024分辨率的图片，4个侧面共计20张，1万个模型，共计20万张图片；其中3D场景表示方法可以共用图片。

其中，表示总损失函数，/>表示几何网络损失函数，/>表示对象网络支路损失函数，/>表示3D包围盒损失函数，/>表示投影损失函数，/>表示物理损失函数，/>表示权重系数；

在本实施例中，所述几何网络损失函数，具体包括：

和/>分别表示俯仰角的相机姿态损失和横滚角的相机姿态损失，/>表示在世界坐标系下3D场景布局信息中心点的损失，/>表示在世界坐标系下3D场景布局信息的航向角的损失，/>表示在世界坐标系下3D场景布局信息的大小损失；/>表示处于世界坐标系下。大小损失即为包围盒真实值和预测值的长宽高的大小计算。

在本实施例中，所述物理损失函数，具体包括：

在本实施例中，所述对象网络支路损失函数，包括：

所述3D包围盒损失函数，具体包括：

本实施例通过3D包围盒损失确保每个3D包围盒与真实值近似以增加构建的包围盒的准确性，还通过物理损失确保了各目标物体之间、目标物体与场景布局之间不存在交叉穿模的情况。

另一方面，分别通过几何网络损失函数优化目标所处的场景如房间的构建精度，和通过3D包围盒损失优化每个对象的构建精度，最终实现了整体还原精度的提高。在本实施例中，所述投影损失函数，具体包括：

在本实施例中，可将3D包围盒信息根据场景布局信息依据所述场景布局信息进行摆放和组合，获得目标场景中的将所有目标对象正确摆放的3D场景模型。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的单视图三维场景位姿估计系统，所述系统包括：图像获取模块、目标检测模块和模型重建模块；

图像获取模块，配置为获取待处理图片；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的单视图三维场景位姿估计系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种单视图三维场景位姿估计方法，其特征在于，所述方法包括：

步骤S1，获取待处理图片；

2.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述步骤S3，具体包括：

3.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，参数表示为：

；

4.根据权利要求3所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，其3D包围盒中心点坐标的计算方法为：

；

表示3D包围盒的中心点的世界坐标；/>表示相机外参的平移参数，第一视角的平移向量为0向量；/>表示相机中心到3D物体中心的距离；/>表示世界坐标系下3D包围盒的朝向，/>表示俯仰角pitch；/>表示横滚角roll；/>表示相机内参，包括焦距、主点和畸变系数；/>表示输入图片在2D平面的中心点坐标；/>表示3D包围盒中心投影到2D平面时与2D包围盒中心的偏移值。

5.根据权利要求4所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，其3D包围盒的中心点投影公式为：

；

表示可微分的投影函数；/>表示3D包围盒的中心点的世界坐标； />表示3D包围盒中心投影到2D平面时2D包围盒的中心；投影函数为已知量；/>为相机的俯仰角pitch，为相机的横滚角roll，/>为3D包围盒中心投影到2D平面时与2D包围盒中心的偏移值，为相机中心到3D物体中心的距离，/>表示相机内参。

6.根据权利要求2所述的单视图三维场景位姿估计方法，其特征在于，所述基于神经网络的六路径3D包围盒构建网络，其训练方法包括：

步骤A1，获取训练集图片；

；

7.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述几何网络损失函数，具体包括：

；

和/>分别表示俯仰角的相机姿态损失和横滚角的相机姿态损失，/>表示在世界坐标系下3D场景布局信息中心点的损失，/>表示在世界坐标系下3D场景的航向角的损失，/>表示在世界坐标系下3D场景布局信息的大小损失；/>表示处于世界坐标系下。

8.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述物理损失函数，具体包括：

；

9.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述对象网络支路损失函数，包括：

；

其中，表示待处理图片中目标的数量，/>表示第/>个目标的第一对象网络支路的损失，/>表示第/>个目标的第二对象网络支路的损失，/>表示第/>个目标的第四对象网络支路的损失，/>表示第/>个目标的第三对象网络支路的损失，/>表示序号，表示第三对象网络支路的分类损失，/>表示第三对象网络支路的回归损失，/>表示第四对象网络支路的分类损失，/>表示第四对象网络支路的回归损失。

10.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒损失函数，具体包括：

；

其中，表示待处理图片中目标的数量，/>表示世界坐标系下第/>个目标的3D包围盒中心点坐标，/>表示世界坐标系下第/>个目标的3D包围盒沿世界坐标垂直轴方向的方向角，/>表示世界坐标系下第/>个目标的3D包围盒的世界坐标朝向，/>表示世界坐标系下第/>个目标的3D包围盒的大小，/>表示3D包围盒的数学表达式，/>表示世界坐标系下第/>个目标的3D包围盒顶点的真实值，/>表示处于世界坐标系下，/>表示序号。

11.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述投影损失函数，具体包括：

；

其中，表示3D包围盒的顶点，/>表示世界坐标系下每个3D包围盒的第/>个顶点坐标， />表示相机的内参，/>表示俯仰角pitch；/>表示横滚角roll，/>表示相机的外参，/>表示将每个3D包围盒的顶点投影到相机所在的2D图像平面获得2D包围盒的可微分的投影函数，/>表示2D包围盒顶点坐标真值。

12.一种单视图三维场景位姿估计系统，其特征在于，所述系统包括：图像获取模块、目标检测模块和模型重建模块；

图像获取模块，配置为获取待处理图片；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-11任一项所述的单视图三维场景位姿估计方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-11任一项所述的单视图三维场景位姿估计方法。