CN115953780A

CN115953780A - 一种基于多视角信息融合的多维光场复杂场景图构建方法

Info

Publication number: CN115953780A
Application number: CN202310227248.0A
Authority: CN
Inventors: 方璐; 陈泽群; 林浩哲; 张晋之
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-04-11
Anticipated expiration: 2043-03-10
Also published as: CN115953780B

Abstract

本发明公开了一种基于多视角信息融合的多维光场复杂场景图构建方法，该方法包括：通过布设多视角相机，对多视角图像信息进行采集，通过深度神经网络进行处理，实现多视角二维对象检测和语义特征提取，利用相机的内外参数进行多视角一致性约束，并进行同一对象的多维特征融合，编码多维语义特征，最终得到全局场景的多维语义场景图。本发明首次实现多维光场复杂场景图生成，且所需硬件系统成本低，算法鲁棒易实施。

Description

一种基于多视角信息融合的多维光场复杂场景图构建方法

技术领域

本发明涉及多视角图像技术领域，特别是涉及一种基于多视角信息融合的多维光场复杂场景图构建方法。

背景技术

多维光场理解是计算机视觉的一个基本任务，在机器人技术和增强现实或混合现实等领域的许多应用都需要它。3DSG（3-DimensionalSceneGraph，多维场景图）旨在从给定形式的多维信息（点云、RGBD图像、全景图像、多视角图像等），构建了一个包括对象(如3Dboundingbox、颜色、形状和其他属性)，以及这些对象实体之间的语义关系。这种形式的表达简洁明了，有利于完成更复杂的视觉任务，如图像生成、场景操作或视觉提问和回答。

3D Scene Graph 首先提出了带有多维语义场景图注释的数据集，从室内场景的完整扫描和全景图像出发，将多维场景图视为一个分层的图结构，每个层次代表一个不同的实体：建筑、房间、对象和摄像机。可以添加更多的层来表示其他语义信息源。与二维场景图类似，每个实体都被添加了一些属性，并与其他实体连接起来，形成不同类型的关系。从2D开始，利用框架和多视角一致性这两个约束在3D中逐渐聚合信息。每个约束都提供更健壮的最终结果和一致的语义输出。

SceneGraphFusion提出了一种实时增量构建全局一致语义场景图的方法，依赖于几何分割和一种新型的归纳图网络，该网络可以处理部分多维点云中缺失的边缘和节点。场景节点是原始形状的几何片段。它们的多维特征在聚集邻域分段特征的图网络中传播。该方法预测场景语义，并通过学习过度分割区域集群之间的关系来识别对象实例。提出了第一个在线多维场景图预测，即将当前观测子图的预测逐步融合到一个全局一致的语义图模型中。同时引入了一种新的注意力方法，可以处理部分和不完整的多维数据，以及增量场景图预测所需的高度动态的关系。

尽管利用了增量信息的多维场景图算法已经可以实时构建多维场景图，受制于多维信息采集地困难，仍然难以实现对整个场景宏观地实时更新场景语义信息，在时效上具有一定的滞后性。另一方面，对于精细的多维场景的处理过程会造成较大的计算开销，进一步限制了该算法实现实时全场景表征的潜力。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

针对上述问题，本发明提出了一种基于多视角信息融合的多维光场复杂场景图构建方法，仅需一系列二维的视图和相机标注对即可对待整个光场进行多维语义图构建，大大降低了计算复杂度。

本发明的另一个目的在于提出一种基于多视角信息融合的多维光场复杂场景图构建。

为达上述目的，本发明一方面提出一种基于多视角信息融合的多维光场复杂场景图构建方法，包括：

将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征，并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征；

根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果；

根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框；

利用多视角信息融合算法融合各个视角的所述场景图特征，以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。

进一步的本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法还可以具有以下附加技术特征：

进一步地，所述目标检测模型为Faster RCNN模型：

将第一场景图输入区域建议网络以输出矩形对象建议，每个矩形对象建议有一个对象得分，通过一个完全卷积网络进行建模，则损失函数为：

其中，i是锚点的索引，

是锚点i成为对象的预测概率，若锚定是正的，基础真实值标签

为1，若锚定是负的，则为0，

是一个向量，表示预测边界框的4个参数化坐标，

是与一个正锚相关联的地面真值边界框，

是分类损失，对于回归损失，使用

定义，其中R是预定义的平滑L1损失函数，这两项损失用

和

归一化，并用

进行平衡。

进一步地，所述根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果，包括：

获取第一相机和第二相机的内参矩阵分别为

、

，第一坐标系与第二坐标系的外参分别为 R、t，以及世界点P的第一像点为

，世界点P的第二像点为

；

将第一相机的目标边界框上下中点变换到第二相机的坐标系中得到极线锥：

获取与极线与第二相机中目标边界框相交的目标边界框进行特征对比，以得到最终的实体再识别结果。

进一步地，所述多视角信息融合算法，包括：

两组独立输入信号的概率分布为

，

的Dempster组合规则

是通过下面公式计算得到的：

其中

是两个质量集之间冲突量的度量，并用

的比例因子进行归一化，得到相应的联合证据和Dirichlet分布参数为：

基于上述组合规则，得到估计的多视图联合证据e和对应的联合Dirichlet分布参数

。

进一步地，根据所述多视图联合证据e和对应的联合Dirichlet分布参数

推断基于多维边界框的多维实体间语义关系。

为达上述目的，本发明另一方面提出一种基于多视角信息融合的多维光场复杂场景图构建系统，包括：

提取预测模块，用于将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征，并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征；

实体再识别模块，用于根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果；

边界框构建模块，用于根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框；

融合生成模块，用于利用多视角信息融合算法融合各个视角的所述场景图特征，以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。

本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法和系统，实现多维光场复杂场景图生成，大大提升多维场景图的使用场景和价值，且算法通过端到端训练，简单易实现，可以部署在任何有多个有标注视图的室内/室外场景。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的流程图；

图2为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的算法管道示意图；

图3为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的一个场景中的语义关系示意图；

图4为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的一个复杂场景中的相机布局示意图；

图5是根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建系统的结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于多视角信息融合的多维光场复杂场景图构建方法和系统。

图1是本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

步骤S1，将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征，并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征；

步骤S2，根据多视图一致性和实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果；

步骤S3，根据实体再识别结果和相机参数的几何约束构建实体的多维边界框；

步骤S4，利用多视角信息融合算法融合各个视角的场景图特征，以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。

可以理解的是，本发明通过多视角高清相机进行多维光场数据采集；通过对各个视角进行目标检测以及二维场景图生成；通过相机参数以及多视角几何约束，确定目标的身份以及多维边界框；以及根据每个视角生成的场景图时得到的特征，通过身份识别、一致性约束以及信息融合算法对多维的真实的语义关系进行预测，以得到该场景下多维实例之间准确的语义关系，从而实现实时的动态场景理解。

具体地，本发明将各视角图像通过 Faster RCNN 算法在采集的多视角二维图像上进行目标检测，得到目标实体的边界框、类别和视觉特征，并通过 Neural-Motifs 算法预测二维图像中实体之间的语义关系，得到单一视角下的场景图和场景图特征；通过多视图一致性和第一阶段得到的各实体的特征对比，确定各视角之间实体的关联，即目标再识别，各视角经过再识别后的实体通过相机参数的几何约束构建实体的多维边界框；通过多视角信息融合算法融合第一阶段得到的各个视图的场景图特征，推断多维实体间准确的语义关系，构建完整的多维光场复杂场景图。

作为本发明的一个实施例，如图2所示，通过对多视角图像输入进行特征提取，将各视角图像通过 FasterRCNN算法在二维图像上进行目标检测，并通过 Neural-Motifs算法预测二维图像中实体之间的语义关系；通过多视角一致性约束和特征对比进行目标再识别，并通过几何投影获得目标的多维边界框；使用联合证据和Dirichlet分布参数的结果最终用来推断融合各视角信息的多维场景图中各实体间的语义关系。

下面结合图3和图4对基于多视角信息融合的多维光场复杂场景图构建方法的算法流程图进行进一步阐述，具体如下：

针对目标检测模型为Faster RCNN模型：首先一个区域建议网络 (RPN, RegionProposal Network) 以一幅图像作为输入，并输出一组矩形对象建议，每个建议有一个对象得分。这个过程通过一个完全卷积网络进行建模，损失函数定义如下：

其中，i是锚点的索引，

是锚点i成为对象的预测概率。如果锚定是正的，基础真实值标签

为1，如果锚定是负的，则为0。

是一个向量，表示预测边界框的4个参数化坐标，

是与一个正锚相关联的地面真值边界框。分类损失

是定义在两个类别 (对象或不是对象) 上的损失。对于回归损失，使用

定义，其中R是预定义的平滑L1损失函数。这两项损失用

和

归一化，并用

进行平衡。

进一步地，针对目标关系预测的Stacked Motifs 模型将一个图G(由一组边界区域B，对象标签O和标记关系R组成)的概率分解为三个因素：

其中边界盒模型

是一个标准的目标检测模型，对象模型

通过将B线性化成一个序列，然后LSTM处理这个序列来创建每个框的上下文表示。同样地，当建模关系

时将预测的标记对象集合O线性化，并使用另一个LSTM处理它们，以创建上下文中每个对象的表示。

进一步地，多视角一致性约束和特征对比进行目标再识别，包括：

已知相机1和相机2的内参矩阵分别为

、

，坐标系1与坐标系2的外参为 R、t (空间点从坐标系1映射到坐标系2)，世界点P(未知)在image1上的像点为

(齐次化)，世界点P(未知)在image2上的像点为

(未知、齐次化)。首先将相机1目标边界框上下中点变换到相机2坐标系中形成极线锥：

再取与极线与相机2中目标边界框相交得目标框中进行特征对比，推断最终的再识别结果，并通过几何投影获得目标的三位边界框。

进一步地，多视图特征融合算法依据Dempster Shafer证据理论允许将来自不同来源的证据组合在一起，得出一个相信程度(由一个称为相信函数的数学对象表示)，该对象考虑到所有可用的证据。两组独立输入信号的概率分布为

，

的Dempster组合规则

是由如下公式计算得到：

其中

是两个质量集之间冲突量的度量，并用

的比例因子进行归一化。然后，从多个角度归纳出相应的联合证据和Dirichlet分布参数为:

基于上述组合规则，可以得到估计的多视图联合证据e和对应的联合Dirichlet分布α参数，从而产生每类的最终概率和总体不确定性。

进一步地，通过一个双向LSTM计算对象上下文C的模型：

包含了线性化B中每个元素的最终LSTM层的隐藏状态，

是一个参数矩阵，将预测类的分布

映射到

。biLSTM使得B的所有元素提供关于潜在对象标识的信息。另有额外的双向LSTM层，构造一个上下文化的边界区域B和对象O的表示模型：

其中边上下文

，包含了 biLSTM 最后一层每个边界区域的状态，

是将

映射到

的参数矩阵。

进一步地，联合证据和Dirichlet分布参数的结果最终用来推断融合各视角信息的多维场景图中各实体间的语义关系，其损失函数定义如下：

其中

是交叉熵函数,

是平衡因子。在实际应用中，可以逐渐增加λt的值，以避免网络在训练的初始阶段过分关注KL散度，导致对参数空间缺乏足够的搜索，进一步导致网络输出的是一个平坦的均匀分布。

根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法，对多视角图像信息进行采集，通过深度神经网络进行处理，获取二维的语义特征，利用相机的内外参数进行多视角一致性约束以实现有效的特征融合，构建多维语义特征，得到整个场景的多维语义场景图。该方法有效重建得到多维场景的语义信息，所需硬件系统成本较低，且算法简单易实现。

为了实现上述实施例，如图5所示，本实施例中还提供了基于多视角信息融合的多维光场复杂场景图构建系统10，该系统10包括，提取预测模块100、表实体再识别模块200、边界框构建模块300和融合生成模块400。

提取预测模块100，用于将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征，并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征；

实体再识别模块200，用于根据多视图一致性和实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果；

边界框构建模块300，用于根据实体再识别结果和相机参数的几何约束构建实体的多维边界框；

融合生成模块400，用于利用多视角信息融合算法融合各个视角的场景图特征，以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。

进一步地，上述目标检测模型为Faster RCNN模型：

将预设的场景图输入区域建议网络以输出矩形对象建议，每个矩形对象建议有一个对象得分，通过一个完全卷积网络进行建模，则损失函数为：

其中，i是锚点的索引，

为1，若锚定是负的，则为0，

是一个向量，表示预测边界框的4个参数化坐标，

是与一个正锚相关联的地面真值边界框，

是分类损失，对于回归损失，使用

定义，其中R是预定义的平滑L1损失函数，这两项损失用

和

归一化，并用

进行平衡。

进一步地，上述实体再识别模块200，还用于：

获取第一相机和第二相机的内参矩阵分别为

、

，世界点P的第二像点为

；

进一步地，上述融合生成模块400中的多视角信息融合算法，包括：

两组独立输入信号的概率分布为

，

的Dempster组合规则

是通过下面公式计算得到的：

其中

是两个质量集之间冲突量的度量，并用

。

进一步地，上述融合生成模块400，还用于根据所述多视图联合证据e和对应的联合Dirichlet分布参数

推断基于多维边界框的多维实体间语义关系。

根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建系统，对多视角图像信息进行采集，通过深度神经网络进行处理，获取二维的语义特征，利用相机的内外参数进行多视角一致性约束以实现有效的特征融合，构建多维语义特征，得到整个场景的多维语义场景图。该方法有效重建得到多维场景的语义信息，所需硬件系统成本较低，且算法简单易实现。

根据本发明实施例的大场景稀疏光场十亿像素级智能重建系统，使得渲染结果具有更丰富的细节与高保真的颜色。定义在局部的元形变表征能够对复杂大场景的光场信息进行有效地表示与压缩存储。基于该表征的渲染与优化效率较高。基于十亿像素级超高分辨率的稀疏视角观测，利用感知分辨率弥补视角分辨率，针对复杂大场景实现超高分辨率的新视角光场渲染。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。