CN114820932B

CN114820932B - 一种基于图神经网络和关系优化的全景三维场景理解方法

Info

Publication number: CN114820932B
Application number: CN202210438348.3A
Authority: CN
Inventors: 刘帅成; 章程; 郑梓澜; 陈才
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2024-05-03
Anticipated expiration: 2042-04-25
Also published as: CN114820932A

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于图神经网络和关系优化的全景三维场景理解方法，包括：步骤S1：构建数据集；步骤S2：将全景图像同时输入进训练好的二维目标检测网络和全景布局估计网络中，对二维目标检测，同时估计房间布局，再提取物体、墙体以及物体和墙体之间关系的特征；步骤S3：将提取的物体、墙体以及物体和墙体之间关系的特征嵌入到关系图卷积网络中实现对物体姿态、物体三维隐式矢量、物体与布局之间关系的估计；步骤S4：根据估计的物体姿态作为初始值进行基于碰撞检测、二维投影、关系约束的关系优化；步骤S5：使用训练好的局部隐函数从隐式矢量中解码三维几何体，实现物体重建。

Description

一种基于图神经网络和关系优化的全景三维场景理解方法

技术领域

本发明涉及计算机视觉技术领域，具体地说，是一种基于图神经网络和关系优化的全景三维场景理解方法，用于对物体姿态进行估计和优化，并最终实现三维场景重建。

背景技术

单目三维场景理解目的是从单张透视相机图像中获取室内场景的三维信息，包括但不限于场景的墙体、天花板、地板的位置(布局估计)，物体的三维包围盒/姿态(三维目标检测)，和三维模型(单目三维场景重建)。场景理解可用于机器人、VR、AR等领域，进一步实现室内导航或与场景中物体直接交互。

全景图像一般从多个视角透视或鱼眼相机采集拼接获取，一般用等距圆柱投影表示为水平360°、竖直180°的图像。由于具有更大的视场角，因此全景图像与标准透视图像相比，自然而然地编码了更丰富的场景上下文信息，然而这在以往的场景理解方法中并没有得到充分的利用。

图神经网络被广泛应用于图结构数据的学习，实现对节点之间上下文的理解。图神经网络的提出解决了图结构数据与深度学习的不兼容问题，并进一步从深度卷积神经网络中引入了卷积操作，实现了相邻节点之间信息的传播。

隐函数三维表示是最近在深度学习领域提出的一种利用神经网络实现的三维表示方法。隐函数三维表示将三维信息编码到相对较短的隐式矢量(Latent Vector)中，并利用深度学习网络解码隐式矢量中隐含的三维信息。不同于深度图、体素、点云、网格等传统的三维表示方法，其具有精度高、信息密度高、适合用于深度学习任务等优点。

图神经网络和隐函数三维表示在各自领域已得到了充分的发展。图卷积神经网络在场景关系图预测任务中表现出优异的性能，结合上下文实现了对物体与物体之间关系的估计。最新的隐函数三维表示方法，局部深度隐含表示(Local Deep Implicit Functionsfor 3D Shape,LDIF)，也在单目物体三维重建中得到应用。另一方面，全景图像在场景理解的部分子任务(布局估计、三维目标检测)中，也得到了一定发展。然而在高度依赖上下文理解的全景三维场景理解任务中，仍缺少一种技术将图神经网络和隐函数三维表示相结合，充分利用物体/布局之间的上下文信息、关系对物体姿态的约束，对物体姿态进行估计和优化，并最终实现三维场景重建。

发明内容

本发明的目的在于提供一种基于图神经网络和关系优化的全景三维场景理解方法，用于对物体姿态进行估计和优化，并最终实现三维场景重建。

本发明通过下述技术方案实现：一种基于图神经网络和关系优化的全景三维场景理解方法，包括以下步骤：

步骤S1：对机器人深度学习交互式环境进行渲染，构建数据集，所述数据集包括三维模型、物体姿态和场景布局真实值；使用数据集训练二维目标检测网络、全景布局估计网络、基于深度残差网络的特征提取网络、关系图卷积网络和局部隐函数网络；

步骤S2：将全景图像同时输入进训练好的二维目标检测网络和全景布局估计网络中，对二维目标检测，同时估计房间布局，再提取物体、墙体以及物体和墙体之间关系的特征；

步骤S3：将提取的物体、墙体以及物体和墙体之间关系的特征嵌入到训练好的关系图卷积网络中实现对物体姿态、物体三维隐式矢量、物体与布局之间关系的估计；

步骤S4：根据估计的物体姿态作为初始值进行基于碰撞检测、二维投影、关系约束的关系优化，实现碰撞规避和物体姿态调整；

步骤S5：使用训练好的局部隐函数从隐式矢量中解码三维几何体，实现物体重建，并最终结合优化的物体姿态实现三维场景重建。

为了更好地实现本发明，进一步地，步骤S1中的数据集包括三维模型、物体姿态和场景布局真实值。

为了更好地实现本发明，进一步地，步骤S2包括：

将全景图像输入进训练好的二维目标检测网络中检测物体；

将全景图像输入进训练好的全景布局估计网络后基于曼哈顿世界假设估计房间布局；

基于检测物体和估计房间布局使用训练好的深度残差网络提取物体、墙体以及物体和墙体之间关系的特征。

为了更好地实现本发明，进一步地，步骤S3包括：

根据训练好的二维目标检测网络在全景图像上检测到的物体和房间布局估计的结果获取3D场景；

获取物体、墙体以及物体和墙体之间关系的特征后，根据获取的特征将3D场景建模为一个图，并通过训练好的关系图卷积网络获取物体初始姿态，并估计物体、房间布局之间的关系。

为了更好地实现本发明，进一步地，步骤S4包括：

基于训练好的关系图卷积网络估计的关系建立一个可导的优化算法，对物体姿态的初始估计进行优化：

所述可导的优化算法采用了梯度下降来最小化由三个部分组成的误差；

所述三个部分组成的误差包括碰撞误差、关系误差和投影误差。

为了更好地实现本发明，进一步地，步骤S5包括：

根据优化得到的物体姿态，使用训练好的局部隐函数三维表示从隐式矢量解码三维几何体，并将得到的三维几何体模型放置到全景三维场景图中，与训练好的全景布局估计网络得到的房间布局结合，实现全景图的三维场景重建。

为了更好地实现本发明，进一步地，包括：

二维目标检测网络在估计二维包围盒和物体掩模后，先从掩模计算出合适的由视线中心的经纬度和水平、竖直视角定义的视角包围盒，再通过非极大抑制算法实现重复检测物体或边缘物体的融合；

得到各物体的视角包围盒和掩膜后，根据视角包围盒将图像和掩膜分别投影到透视视角并裁剪，按通道串联后输入到深度残差网络中提取物体、墙体以及物体和墙体之间关系的特征。

为了更好地实现本发明，进一步地，根据碰撞误差衡量物体之间以及物体与墙体、地板、天花板之间的碰撞；

根据关系误差衡量物体姿态满足关系图卷积网络中对包围盒的朝向夹角关系、相对距离关系和接触关系估计的程度；

根据投影误差衡量物体姿态与二维目标检测包围盒估计的符合程度。

为了更好地实现本发明，进一步地，将最终的优化的物体姿态定义为最小化三种误差的和，所述三种误差为碰撞误差、关系误差和投影误差。

本发明与现有技术相比，具有以下优点及有益效果：

(1)可以在全景图上实现三维场景理解任务；

(2)通过关系图卷积网络和关系优化模块实现了对上下文的理解和利用，使三维场景理解结果更加准确。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明提供的一种基于图神经网络和关系优化的全景三维场景理解方法中算法框架示意图。

图2为本发明提供的一种基于图神经网络和关系优化的全景三维场景理解方法中分离轴定理定义的物体-物体碰撞损失示意图。

图3为本发明提供的一种基于图神经网络和关系优化的全景三维场景理解方法中场景理解结果图。

图4是本发明提供的一种基于图神经网络和关系优化的全景三维场景理解方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

名词解释：

局部隐函数(Local Deep Implicit Functions,LDIF)：一种结合了结构化表示和隐式表示的三位表示方法，可以实现较高的三维表示精度。结构化表示指三维模型由32个三维元素(16个有对称性约束)组合而成；

隐式表示指每个元素是由高斯函数和多层感知机组成的占据方程表示的，该方程由10个高斯函数参数和32维隐式向量(Latent Vector)来决定。

高斯参数描述了每个高斯函数的缩放尺度、中心点、半径和欧拉角，它包含了三维几何体的结构信息，而多层感知机对高斯椭球的表面进行细化，实现对物体细节的表达。

隐式向量(Latent Vector)：指嵌入了物体三维信息的特征向量。

视角包围盒(Bounding Field of View，BFoV)：由视线中心的经纬度和水平、竖直视角定义的物体二维包围盒。

实施例1：

本实施例的一种基于图神经网络和关系优化的全景三维场景理解方法，本发明基于深度学习的算法框架如图1-图4所示，算法包含三个部分，即特征提取、关系估计图神经网络、关系优化。特征提取部分主要实现二维目标检测，房间布局估计，以及对物体、墙体、关系特征的提取。提取的物体、墙体、关系特征被随后嵌入到关系图卷积网络(Relation-based Graph Convolutional Network,RGCN)实现对物体姿态、物体三维隐式矢量、物体与布局之间关系的估计。之后，估计的物体姿态被作为初始值进行基于碰撞检测、二维投影、关系约束的关系优化(Relation Optimization，RO)，实现碰撞规避和物体姿态调整。最后局部隐函数(Local Deep Implicit Functions,LDIF)三维表示从隐式矢量解码三维几何体，实现物体重建，并最终结合优化的物体姿态实现场景重建。使用数据集训练二维目标检测网络(Mask-RCNN)、全景布局估计网络(HorizonNet)、基于深度残差网络(ResNet)的特征提取网络、关系图卷积网络(RGCN)、局部隐函数网络(LDIF)。

本实施例通过对机器人深度学习交互式环境进行渲染构建新的所需的数据集。

实施例2：

本实施例在实施例1的基础上做进一步优化，由于目前没有满足需求的全景三维场景理解数据集，本发明基于机器人深度学习交互式环境iGibson渲染了一个包括三维模型、物体姿态、场景布局真实值的数据集。iGibson包含57个类别500多个物体、15个场景、100多个房间，每个场景平均有75个物体。在渲染前，物体被随机替换为相同类别的模型，以获得多样化的场景。同时，为了解决一些物体错误摆放的问题(如浮空的物体)渲染前可运行一个物理仿真。随后，将相机设置到1.6m高度，并随机位置和朝向。为了避免相机位置与物体重合，或在物体之上，或靠物体太近，我们为每个场景生成一个物体布局图，用以筛除不符合条件的相机位置。最后我们渲染了3,000张全景图像，包括语义/实例分割、深度图、房间布局、物体三维包围盒的真实值。在15个场景中，我们随机选取10个用于训练、5个用于测试，每个场景渲染了200张图像。在训练局部隐函数时，我们为各个物体生成了单物体图像。从场景渲染中，我们截取了10,000个单物体图像用于训练，5,000个用于测试。我们还渲染了额外的单物体图像，其中训练图像有100,000个，测试图像有20,000个。为了生成局部隐函数的隐式表示真实值，我们先将物体的三维模型处理为不透水的网格(WatertightMesh)，再在网格表面随机采点、在网格包围盒内均匀采点。

所有独立的网络(二维目标检测网络，全景布局估计网络，局部隐函数)都是在合成数据集上训练或微调后的。特别地，二维目标检测网络在COCO数据集上进行了预训练，微调采用的批尺寸(batch size)为5，学习速率为2e-3，训练了2e5次迭代；全景布局估计网络在Structured3D数据集上进行了预训练，微调采用的批尺寸为4，学习速率为2e-4，训练了100时期(epochs)；局部隐函数在Pix3D上进行了预训练，微调采用的批尺寸为24，学习速率为1e-4，训练了100时期。

为了训练关系图卷积网络，我们对真实物体三维包围盒和全景布局估计网络的布局估计进行了碰撞检测，容忍距离为0.1米(即在碰撞检测前将包围盒放大0.05m)，其他关系根据其定义计算真实值。我们首先仅训练关系图卷积网络的物体姿态估计分支，采用16的批尺寸和1e-4的学习率，训练30时期。然后加入关系分支进行微调，在同样的参数下训练20时期。最终我们将关系图卷积网络、关系优化一起进行联合训练，批尺寸为1，学习速率为1e-5，训练15时期。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在实施例2的基础上做进一步优化，在本实施例中首先采用二维目标检测网络二维目标检测网络在全景图上检测物体，再用全景布局估计网络实现房间布局的估计，最后用深度残差网络提取物体、墙体、关系的特征。

具体来说，二维目标检测网络在估计二维包围盒和物体掩模(Mask)后，首先从掩模计算出合适的由视线中心的经纬度和水平、竖直视角定义的视角包围盒(BoundingField of View，BFoV)。由于全景图的左右边界是连接的，为了利用普通的二维目标检测网络实现边界物体的检测，在输入二维目标检测网络前，全景图被向右延长了180°，从二维目标检测网络输出检测结果后，延长部分的检测结果被平移360°到全景图左侧，然后通过非极大抑制(Non-Maximum Suppression，NMS)算法实现重复检测物体或边缘物体的融合。

得到各物体的视角包围盒和掩膜后，根据视角包围盒将图像和掩膜分别投影到透视视角并裁剪，按通道串联后输入到深度残差网络中提取物体的图像特征。全景图还被输入到全景布局估计网络中实现曼哈顿世界假设的房间布局估计，其结果被进一步按墙体进行分解，根据各墙体的视角包围盒裁剪墙体图像和掩膜，进而用深度残差网络从串联的墙体图像和掩膜中提取墙体的图像特征。对每个墙体-墙体，墙体-物体，物体-物体对，还根据其掩膜的并集计算合适的视角包围盒，并裁剪关系对的图像和掩膜，进一步用深度残差网络提取其关系的图像特征。对于墙体，根据假设的1.6m相机高度计算其三维包围盒，将其三维包围盒的参数作为墙体的三维几何特征；对于物体和墙体，还将其视角包围盒的归一化参数作为二维几何特征；对于关系，将其对应的两个视角包围盒的归一化参数串联作为二维几何特征。

以上物体、墙体、关系的图像和几何特征被输入到各自的多层感知器(MultilayerPerceptron,MLP)，嵌入为长度512维的特征矢量。

本实施例的其他部分与实施例2相同，故不再赘述。

实施例4：

本实施例在上述实施例2或3的基础上做进一步优化，在本实施例中，如图1-图3所示，在得到特征后，整个场景被建模为一个图，并通过图卷积网络(Graph R-CNN)对物体初始姿态以及对物体、房间布局之间的关系进行估计，由于本发明中图卷积网络以关系估计为重点，因此也可以称为关系图卷积网络(Relation-based Graph ConvolutionalNetwork,RGCN)。由于全景图具有完整的视角，相对透视相机，本发明的关系图卷积网络得以对房间中所有物体进行建模，实现对更强上下文的编码和利用。

具体来说，整个3D场景建模为一个图G，该图从一个完全图开始构建，所有物体和墙体节点之间都有不定向的边，这使得信息可以在物体和场景布局之间流动，同时各节点还加入一个自环。然后，在每一对相邻的物体/布局节点之间插入关系节点。考虑到关系具有方向性的的性质，每对邻接点之间插入的关系节点有两个，并通过方向相反的有向边与物体和场景布局节点相连。每个节点，包括墙体、物体、关系，各自嵌入了前面提取的特征作为表示向量(Representation Vector)，并通过图卷积网络的消息传递(Message Passing)进行更新。

经过四步的消息传递，独立的多层感知器将物体节点的表示向量解码成物体姿态的参数和物体、墙体之间的关系。关系估计的目的是学习对物体姿态优化有价值的上下文信息，特别地，估计的关系包含两类：包围盒-包围盒，物体-布局。对于包围盒-包围盒(也包含墙体，因为墙体和物体同样表示为三维包围盒)，定义以下关系：1)两各包围盒朝向之间的夹角；2)两个包围盒是在一定容忍度下有碰撞；3)一个物体的包围盒中心是否比另一个物体远。对于物体-布局，定义以下关系：1)物体是否在地板上、物体是否与天花板接触；2)物体是否在房间内部(部分房间外的物体可能能通过门窗被观察到)。所有关系中二值关系估计被建模为二分类任务，通过逻辑回归解决；而角度关系被建模为多分类任务(将0到360°按45°离散化为8个类别，如-22.5°到22.5°，22.5°到67.5°)。所有关系都通过独立的多层感知器从关系节点的表示向量中解码。

关系图卷积网络还用于估计三维物体姿态和隐式表示向量。在世界坐标系中，一个三维包围盒(布局或物体)可通过其三维中心C，三条边长S，以及旋转角度θ表示。由于输入的全景图像已经过对齐，保证相机正对世界坐标系水平方向的两轴之一，且相机上方向与世界坐标系竖直方向轴对齐，因此世界坐标系下的物体旋转角度θ也可用相机坐标系表示。为了实现三维目标检测，本发明在视角包围盒的基础上，进一步将物体三维包围盒表示为(δ，d，s，θ)，其中δ是物体三维包围盒中心在相机平面上的投影与物体二维包围盒中心之间的偏移。而物体的旋转角度θ则定义为物体朝向与相机到物体中心视线之间的竖直方向夹角，通过视线方向可以容易地将θ转换为世界坐标系下的物体朝向。根据以上三维包围盒定义，从更新的物体节点的表示向量中，独立的多层感知器分别解码得到三维包围盒的各个参数，并解码各物体的三维隐式表示，进一步通过局部隐函数解码得到物体的三维模型。

对于以上多层感知器，输入的表示向量维度为512维，在经过256维的第一层全连接层后，连接一个线性整流函数(ReLU)和一个丢弃因数为0.5的隐藏层(Dropout Layer)，最后通过一个全连接层转换为对应维度的参数或类别。

本实施例的其他部分与上述实施例2或3相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项的基础上做进一步优化，在本实施例中，如图1-图2所示，虽然关系图卷积网络对物体姿态进行了估计，但某些包围盒参数的微小误差可能极大地违反上下文，且易被人眼观察，比如物体之间的碰撞、本来在地上确估计为浮空的物体、本来靠墙确远离墙体的物体。为了解决这些问题，本发明基于关系图卷积网络估计的关系建立一个可导的优化算法，对物体姿态的初始估计进行优化。特别地，优化算法采用了梯度下降来最小化由三个部分组成的误差：包围盒碰撞、与关系的一致性、与二维目标检测包围盒的一致性。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项基础上做进一步优化，在本实施例中，如图3所示，碰撞误差衡量物体之间，物体与墙体、地板、天花板之间的碰撞，分为两类碰撞：物体-物体碰撞，物体-布局碰撞。

物体-物体碰撞为物体三维包围盒之间的碰撞。对于包括立方体在内的凸多面体，分离轴定理定义了一种简单高效的方法来检测碰撞，并衡量碰撞的程度。如图2所示，以二维矩形为例，如果两个矩形A、B在所有分离轴上的投影都有重叠(分离轴定义为垂直于A或B某边的轴)，则A与B有碰撞，反之，者无碰撞，并且，可以用各分离轴上投影重叠的长度d之和来衡量包围盒之间的碰撞程度。以上定理在三维空间仍成立。基于此，物体i与物体j的碰撞误差可以定义为：

其中S_ij是物体i和物体j分离轴的并集，而d_x＝min(|a₂-b₁|，|a₁-b₂|)是沿分离轴x上的分离距离。

物体-布局碰撞为物体与墙体、地板、天花板之间的碰撞。因为房间布局满足曼哈顿世界假设，因此定义：1)物体-墙体碰撞误差e^wc为物体三维包围盒的角点到布局二维多边形之间的最短距离之和；2)物体-地板/天花板碰撞误差e^fc和e^cc定义为物体三维包围盒下表面/上表面到地板/天花板之间的距离。这些误差在没有碰撞发生时均定义为0。同时，为了排除物体-墙体碰撞对室外物体的影响(部分房间外的物体可能能通过门窗被观察到)，将e^wc与室内物体标签加权，以避免室外的物体被拉到室内。

对于包含物体集合O和墙体集合W的场景来说，碰撞误差可最终定义为：

其中λ^*为预设置的权重。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项基础上做进一步优化，在本实施例中，关系误差用于衡量物体姿态满足关系图卷积网络估计关系的程度。对于包围盒朝向夹角的关系，定义误差e^ro为包围盒当前朝向夹角与关系图卷积网络估计朝向夹角之间的绝对误差；对于相对距离关系，首先计算两个物体到相机之间的视线距离是否满足关系图卷积网络估计的远近关系，若不满足则计算误差e^rd为视线距离之差的绝对值，若满足则定义为0；对于接触关系，定义三维包围盒之间的接触误差e^ar与e^oc相同，但存在条件相反，即仅在无碰撞时惩罚该误差。总的来说，关系误差可定义为：

其中l^*为关系图卷积网络估计的对应关系的标签，λ^*为预设置的各关系误差权重。

本实施例的其他部分与上述实施例1-6任一项相同，故不再赘述。

实施例8：

本实施例在上述实施例1-7任一项基础上做进一步优化，投影误差中，优化的物体姿态除了要满足关系且无碰撞，还要满足输入图像二维目标检测包围盒估计的一致性。对每个物体，将其三维包围盒投影到与到包围盒中心的水平视线垂直的平面上，计算一个二维包围盒，并与二维目标检测网络的检测结果计算L₁误差。最终的投影误差定义为：

本实施例的其他部分与上述实施例1-7任一项相同，故不再赘述。

实施例9：

本实施例在上述实施例1-8任一项基础上做进一步优化，损失函数在单独训练物体重建网络时，采用和局部隐函数相同的高斯椭球中心(Shape Element Center)损失函数L_c和点采样(Point Sample)损失函数：

L_p＝λ_nsL_ns+λ_usL_us

其中L_ns和L_us分别计算重建曲面表面点和网格采样点的L₂损失函数。

在训练关系图卷积网络时，除了用于监督物体姿态估计的损失函数，还有关系估计的损失函数：

其中λ_*为各参数损失函数的权重，L_*为各参数的损失函数。由于β，γ，θ^l，d，θ被参数化为分类和回归问题，因此采用损失函数其中回归损失函数/>和其他参数采用L₂损失函数，而分类损失函数/>采用交叉熵损失函数。L_ro是8类夹角的交叉熵损失函数，而L_x，x∈{ar，ft，ct，rd}是二分类交叉熵损失函数。在联合训练关系图卷积网络和关系优化时，采用联合损失函数：

其中L′_x是优化物体姿态参数的L₁损失。

本实施例的其他部分与上述实施例1-8任一项相同，故不再赘述。

实施例10：

本实施例在上述实施例1-9任一项基础上做进一步优化，最终的优化目标可定义为最小化三种误差之和：

min E(δ，d，s，θ)＝E^c+E^r+E^o

各子误差的权重λ^*是根据估计关系和初始化姿态估计的可信度预先设置的。优化可以由梯度下降优化器，并实现可导的优化流程，因此训练时可以加入到关系图卷积网络后实现联合训练。根据优化得到的物体姿态，局部隐函数解码得到的三维模型被放置到场景中，并与全景布局估计网络得到的房间布局结合，实现全景图的三维场景重建。

本实施例的其他部分与上述实施例1-9任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，包括以下步骤：

步骤S1：使用机器人深度学习交互式环境渲染全景图，构建数据集，所述数据集包括三维模型、物体姿态和场景布局真实值；使用数据集训练二维目标检测网络、全景布局估计网络、基于深度残差网络的特征提取网络、关系图卷积网络和局部隐函数网络；

将全景图像输入进训练好的二维目标检测网络中检测物体；

基于检测物体和估计房间布局使用训练好的深度残差网络提取物体、墙体以及物体和墙体之间关系的特征；

步骤S5：使用训练好的局部隐函数从隐式矢量中解码三维几何体，实现物体重建，并最终结合优化的物体姿态实现三维场景重建；

基于深度学习的算法框架进行，算法框架包括特征提取网络、关系图卷积网络、关系优化；所述特征提取网络用于实现二维目标检测，房间布局估计，以及对物体、墙体、关系特征的提取，提取的物体、墙体、关系特征被随后嵌入到关系图卷积网络实现对物体姿态、物体三维隐式矢量、物体与布局之间关系的估计；

之后，估计的物体姿态被作为初始值进行基于碰撞检测、二维投影、关系约束的关系优化，实现碰撞规避和物体姿态调整；

最后局部隐函数网络三维表示从隐式矢量解码三维几何体，实现物体重建，并最终结合优化的物体姿态实现场景重建。

2.根据权利要求1所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，所述步骤S3包括：

获取物体、墙体以及物体和墙体之间关系的特征后，根据获取的特征将3D场景建模为一个图，并通过训练好的关系图卷积网络获取物体初始姿态，并估计物体姿态、物体三维隐式矢量、物体与布局之间关系。

3.根据权利要求1所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，所述步骤S4包括：基于训练好的关系图卷积网络估计的关系建立一个可导的优化算法，对物体姿态的初始估计进行优化：所述可导的优化算法采用了梯度下降来最小化由三个部分组成的误差；所述三个部分组成的误差包括碰撞误差、关系误差和投影误差。

4.根据权利要求1所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，所述步骤S5包括：根据优化得到的物体姿态，使用训练好的局部隐函数三维表示从隐式矢量解码三维几何体，并将得到的三维几何体模型放置到全景三维场景图中，与训练好的全景布局估计网络得到的房间布局结合，实现全景图的三维场景重建。

5.根据权利要求1所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，包括：二维目标检测网络在估计二维包围盒和物体掩模后，先从掩模计算出合适的由视线中心的经纬度和水平、竖直视角定义的视角包围盒，再通过非极大抑制算法实现重复检测物体或边缘物体的融合；得到各物体的视角包围盒和掩膜后，根据视角包围盒将图像和掩膜分别投影到透视视角并裁剪，按通道串联后输入到深度残差网络中提取物体、墙体以及物体和墙体之间关系的特征。

6.根据权利要求3所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，包括：根据碰撞误差衡量物体之间以及物体与墙体、地板、天花板之间的碰撞；根据关系误差衡量物体姿态满足关系图卷积网络中对包围盒的朝向夹角关系、相对距离关系和接触关系估计的符合程度；根据投影误差衡量物体姿态与二维目标检测包围盒估计的符合程度。

7.根据权利要求1-6任一项所述的一种基于图神经网络和关系优化的全景三维场景理解方法，其特征在于，包括：将最终的优化的物体姿态定义为最小化三种误差的和，所述三种误差为碰撞误差、关系误差和投影误差。