CN114743123A

CN114743123A - 一种基于隐函数三维表示和图神经网络的场景理解方法

Info

Publication number: CN114743123A
Application number: CN202210466628.5A
Authority: CN
Inventors: 刘帅成; 章程; 郑梓澜; 陈才
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-12

Abstract

本发明涉及计算机视觉领域技术领域，公开了一种基于隐函数三维表示和图神经网络的场景理解方法。本发明用于实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。

Description

一种基于隐函数三维表示和图神经网络的场景理解方法

技术领域

本发明涉及计算机视觉领域技术领域，具体地说，是一种基于隐函数三维表示和图神经网络的场景理解方法，用于实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。

背景技术

单目三维场景理解目的是从单张透视相机图像中获取室内场景的三维信息，包括但不限于场景的墙体、天花板、地板的位置(布局估计)，相机的姿态(相机姿态估计)，物体的三维包围盒/姿态(三维目标检测)，和三维模型(单目三维场景重建)。场景理解可用于机器人、VR、AR等领域，进一步实现室内导航或与场景中物体直接交互。图神经网络被广泛应用于图结构数据的学习，实现对节点之间上下文的理解。图神经网络的提出解决了图结构数据与深度学习的不兼容问题，并进一步从深度卷积神经网络中引入了卷积操作，实现了相邻节点之间信息的传播。隐函数三维表示是最近在深度学习领域提出的一种利用神经网络实现的三维表示方法。隐函数三维表示将三维信息编码到相对较短的隐式向量(latentvector)中，并利用深度学习网络解码隐式向量中隐含的三维信息。不同于深度图、体素、点云、网格等传统的三维表示方法，其具有精度高、信息密度高、适合用于深度学习任务等优点。

图神经网络和隐函数三维表示在各自领域已得到了充分的发展，最新的隐函数三维表示方法和局部深度隐式函数(Local Deep Implicit Functions for 3D Shape,LDIF)在单个物体的三维表示中展现了较高的精度和性能，但在高度依赖上下文理解和单目物体重建的场景理解任务中，仍缺少一种技术将两者结合，因此，本发明提出了一种技术方案，将两者进行结合。

发明内容

本发明的目的在于提供一种基于隐函数三维表示和图神经网络的场景理解方法，用于实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。

本发明通过下述技术方案实现：一种基于隐函数三维表示和图神经网络的场景理解方法，包括：

步骤S1：在图估计阶段，使用二维目标检测网络从输入的图像中提取图像中的物体的二维包围盒和类别，然后使用场景图卷积网络更新并表示图像的上下文信息，在二维包围盒和类别的基础上，使用三维包围盒表示物体姿态和房间布局参数，并对物体类别编码和物体保留标签进行估计，输出图估计结果，所述图估计结果包括物体姿态、房间布局参数、物体隐式表示向量、物体类别编码和物体保留标签，进行初始估计所述上下文信息为图像的物体和房间布局之间的关系信息；

步骤S2：在图优化阶段，使用场景图卷积网络对步骤S1中的图估计结果进行迭代优化，并根据估计的物体保留标签对图进行裁剪，删除保留标签低于阈值的检测结果和对应的物体节点；

步骤S3：场景图卷积网络输出物体隐式表示向量后，由局部深度隐式函数解码物体的三维模型输出网格表示模型，并结合步骤S2中优化迭代后的图估计结果实现场景重建。

为了更好地实现本发明，进一步地，步骤S1包括：

使用二维目标检测网络从输入的图像中检测到候选物体后，将图像中的物体和布局建模为一个由物体节点和布局节点组成的图；

然后将提取到的物体节点和布局节点特征嵌入到图的对应节点中作为节点表示向量，通过场景图神经网络对节点表示向量进行更新并表示图像的上下文信息；

更新后的节点表示向量通过多层感知器进行解码，其中物体节点的表示向量解码为物体姿态和隐式表示向量，布局节点的表示向量解码为布局的参数。

为了更好地实现本发明，进一步地，对物体类别编码和物体保留标签进行估计的方法包括：

对物体类别编码输入onehot编码，对物体保留标签设计为线性回归任务。

为了更好地实现本发明，进一步地，场景图卷积网络的学习过程包括：

使用深度残差网络为房间布局和图像中的物体提取图像特征，并将图像特征与布局节点局部特征和物体节点特征分别进行扁平化处理，再串联成一个向量，然后用多层感知器MLP将向量编码为长度相同的节点表示向量；

所述布局节点特征包括按图像高度归一化的相机内参，所述物体节点特征包括二维目标检测网络估计的物体类别的原始编码输出；

建立物体节点o或布局节点o对应的图像，并建立其对应的特征矩阵Z^o∈R^d×(N+1)，其中，R是实数，是数学里公认的符号，d是节点表示向量的维度，N指物体的个数，再对3D场景建模的图像进行消息传递和节点以定义的方式表示更新；

所述定义的方式表达为

其中，i表示第i次消息传递的特征矩阵，W∈R^d×d表示从特征矩阵到特征矩阵更新量的线性变换，

是上一次更新后物体节点o或布局节点o的表示向量，其下标表示第i-1次更新；σ是线性整流函数。

为了更好地实现本发明，进一步地，步骤S2包括：

在图估计阶段得到图估计结果，图优化阶段将已有特征和参数嵌入为节点表示，用场景图卷积网络进行迭代优化；

在图优化的每次迭代中，场景图卷积网络通过四步消息传递后，用独立的多层感知器MLP将图神经网络中的节点的表示向量解码成相应物体或布局包围盒参数以及隐式表示向量和物体类别、保留标签的残差，并加到初始阶段的估计值上，以得到本次迭代的估计结果，所述图神经网络中的节点包括物体节点和布局节点；

所述结果被随后作为特征与当前节点表示一起重新编码，成为下一次迭代的节点表示向量。

为了更好地实现本发明，进一步地，步骤S3包括：

选择局部深度隐式函数进行物体重建，局部深度隐式函数是32个3D元素的组合，每个元素用10个高斯函数参数和32维隐式向量来表示；

高斯参数描述了每个高斯函数的缩放尺度、中心点、半径和欧拉角，高斯参数包含了三维模型的结构信息，高斯函数参数在对物体进行三维表示的同时，也作为物体节点的特征为图优化阶段的场景图卷积网络提供物体的几何和位置信息。

为了更好地实现本发明，进一步地，包括：

在单独训练局部深度隐式函数网络时，采用高斯椭球中心损失函数和点采样损失函数；在对物体姿态和房间布局参数进行训练时，对网络输出采用交叉熵损失函数和合作损失函数。所述网络输出为二维目标检测网络输出和场景图卷积网络输出。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明可以实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务；

(2)本发明利用场景图卷积网络在图估计和图优化两个阶段中实现了对物体、房间布局之间关系的理解和利用，使三维场景理解结果更加准确。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明提供的一种基于隐函数三维表示和图神经网络的场景理解方法中算法框架示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例的一种基于隐函数三维表示和图神经网络的场景理解方法，如图1所示，。

实施例2：

本实施例在实施例1的基础上做进一步优化，在本实施例中，由于场景中的物体与布局之间往往存在相互联系，对一个物体的包围盒估计、房间布局的估计、以及物体的三维重建也因此可以依赖其他物体或布局的信息、以及其与其他物体或布局的关系，如桌子在地面上，则通过地面高度就可以确定桌子三维包围盒的底面高度。为了利用这一观察以进一步提高估计的精度，在初始预测的基础上，本发明设计了场景图卷积网络来对场景中的物体与布局进行建模，并理解其上下文信息以实现所需的参数估计。具体来说，整个3D场景建模为一个图G，其节点代表物体、场景布局以及它们之间的关系。该图从一个完全图开始构建，所有物体和布局节点之间都有不定向的边，这使得信息可以在物体和场景布局之间流动。

由于输入特征是一个有效的图神经网络的关键，对于不同类型的节点，本发明从不同的来源获取特征，并将来自不同来源的特征进行扁平化处理，再串联成一个向量，然后用MLP编码为长度相同的节点表示向量。使用深度残差网络为房间布局和图像中的物体提取图像特征，并将图像特征与布局节点和物体节点分别进行扁平化处理，再串联成一个向量，然后用多层感知器MLP将向量编码为长度相同的节点表示向量；图的节点之间由有向边连接，构成一个全连接图。然后将提取到的物体和布局特征嵌入到图的对应节点中作为节点表示向量，通过图神经网络对表示向量进行更新并表示上下文信息。更新后的节点表示向量通过多层感知器解码，其中物体节点的表示向量解码为物体姿态和隐式表示向量，布局节点的表示向量解码为布局的参数。

布局节点包括按图像高度归一化的相机内参，物体节点包括二维目标检测网络估计的物体类别的原始编码输出；在二维目标检测网络检测到候选物体后，将场景中的物体和布局建模为一个由物体节点和布局节点组成的图，建立物体节点o或布局节点o对应的图像，并建立其对应的特征矩阵Z^o∈R^d×(N+1)，其中，R是实数，是数学里公认的符号，d是节点表示向量的维度，N指物体的个数，再对3D场景建模的图像进行消息传递和节点以定义的方式表示更新；定义的方式表达为

是上一次更新后物体节点o或布局节点o的表示向量，其下标表示第i-1次更新；σ是线性整流函数。经过消息传递后，独立的MLP将更新后的节点表示向量解码成所需的参数。输入场景，并将场景建模为图像；建立物体/布局节点o的图，并建立其对应的特征矩阵，再对3D场景建模的图像进行消息传递和节点以定义的方式表示更新；

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，在图估计阶段，对于单目场景布局，本发明采用曼哈顿世界假设，并进一步简化场景布局为一个矩形包围盒。通过将世界坐标系原点设置在相机中心，将y轴朝上垂直于地板设置，并将x轴转向相机前向，相机的姿态可通过俯仰角β和横滚角γ表示。在世界坐标系中，一个三维包围盒，三维包围盒和二维包围盒一样都是本领域内的专有名词，二维包围盒是一个在图像中将物体框住的矩形，可以标注物体在图像中的位置和大小，三维包围盒是三维物体在世界坐标系中三维将物体框住的立方体，可以标注物体在三维坐标系中的位置、大小和姿态。三维包围盒可通过其三维中心C，三条边长S，以及旋转角度θ表示。在三维目标检测中，本发明在成熟的二维物体检测网络检测得到的二维包围盒的基础上，进一步将物体三维包围盒表示为(δ，d，s，θ)，其中δ是物体三维包围盒中心在相机平面上的投影与物体二维包围盒中心之间的偏移，d是节点表示向量的维度，s是三条边长S，θ是旋转角度。

如图1所示，在图估计阶段，首先采用二维物体检测网络(Faster R-CNN)对输入图像中的物体进行检测，获得物体类别和二维包围盒；然后通过二维包围盒裁剪各个物体的图像并利用两个深度残差网络ResNet18分别从裁剪的物体图像中提取图像特征和从完整输入图像提取场景特征；进一步地，将这些图像特征和其他特征，其他特征在本发明中主要包括布局节点特征和物体节点特征，布局节点特征包括按图像高度归一化的相机内参，相机内参是指相机内参矩阵中以像素为单位的图像原点平移尺寸和镜头焦距，物体节点特征包括二维物体检测网络估计的物体类别原始编码输出，物体类别原始编码表示为一个向量，其长度与数据集类别数量相同，其元素表示该物体属于某类别的概率，如[0.1,0.0,0.9]可表示该物体属于第三种类别的概率最大，一起嵌入到场景图卷积网络中，并通过四步的消息传递，此处的四步指四次消息传递，在场景图卷积网络的学习过程中已经说明，消息传递更新节点表示向量；最后从布局节点的表示向量解码场景布局包围盒参数、相机姿态参数，从物体节点的表示向量解码物体包围盒参数、物体隐式表示向量、物体类别编码、物体保留标签的估计，其中物体类别编码是与二维物体检测网络输入形式相同的onehot编码，而物体保留标签属于二分类任务，故在此设计为线性回归任务。

消息传递是图神经网络定义的一种操作，用于更新各节点包含的表示向量。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上做进一步优化，本发明选择基于隐函数三维表示的方法进行物体重建的任务，具体为局部深度隐式函数。局部深度隐式函数是32个3D元素(16个有对称性约束)的组合，每个元素用10个高斯函数参数和32维隐式向量来描述，以上所有参数构成了局部深度隐式函数的隐式表示向量。其中高斯参数描述了每个高斯函数的缩放尺度、中心点、半径和欧拉角，它包含了三维几何体的结构信息。高斯函数参数在对物体进行三维表示的同时，也作为物体节点的特征为图优化阶段的场景图卷积网络提供物体的几何和位置信息。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项基础上做进一步优化，如图1所示，在图估计阶段得到各参数的初始估计后，图优化阶段将已有特征和参数嵌入为节点表示，用与图估计阶段权重不同的另一个场景图卷积网络学习结合了三维几何的上下文信息，并对初始估计进行迭代优化。具体来说，物体节点的特征包括图估计阶段物体节点的表示向量、初始估计的物体包围盒参数、局部深度隐式函数表示的高斯椭球参数以及其中心在世界坐标系下的坐标，布局节点的特征则包括图估计阶段布局节点的表示向量、初始估计的布局包围盒和相机姿态参数。

在图优化的每次迭代中，场景图卷积网络通过四步消息传递后，用独立的MLP将节点的表示向量解码成相应物体或布局包围盒参数以及隐式表示向量和物体类别、保留标签的残差，并加到初始阶段的估计值上，以得到本次迭代的估计结果。该结果被随后作为特征与当前节点表示一起重新编码，成为下一次迭代的节点表示向量，如操作十次，实现对图估计阶段输出的迭代优化。

以上场景图卷积网络操作的衔接部分，除了要更新参数估计、重新嵌入节点表示，还要根据估计的物体保留标签对图进行裁剪，删除保留标签低于阈值的检测结果和对应的物体节点。

三维包围盒的参数定义了物体的姿态，包括位置、尺寸和朝向。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项基础上做进一步优化，本发明中使用的网络均为损失函数训练过的网络，即局部深度隐式函数、二维目标检测网络和场景图卷积网络均被训练，在单独训练物体重建网络时，采用和局部深度隐式函数相同的高斯椭球中心(Shape Element Center)损失函数L_c和点采样(Point Sample)损失函数：

L_p＝λ_nsL_ns+λ_usL_us

其中L_ns和L_us分别计算重建曲面表面点和网格采样点的L₂损失函数。

在对相机姿态的参数、布局和物体的包围盒参数进行监督时，对网络输出采用以下损失函数：

其中λ_*为各参数损失函数的权重，L_*为各参数的损失函数。由于β，γ，θ^l，d，θ被参数化为分类和回归问题，因此采用损失函数

其中回归损失函数

和其他参数采用L₂损失函数，而分类损失函数

采用交叉熵损失函数。

在训练细化阶段的场景图神经网络时，对网络输出采用以下损失函数：

L_j＝L_CAM+L_LO+L_OBJ+λ_coL_co

除了l_CAM，L_LO，L_OBJ，L_co是Total3DUnderstanding提供的合作损失函数(Cooperative Loss)。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项基础上做进一步优化，本发明可以实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。

本实施例的其他部分与上述实施例1-6任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。