CN116385660A

CN116385660A - 室内单视图场景语义重建方法及系统

Info

Publication number: CN116385660A
Application number: CN202310436260.2A
Authority: CN
Inventors: 谢雪梅; 张少龙
Original assignee: Pazhou Laboratory Huangpu; Xidian University
Current assignee: Pazhou Laboratory Huangpu; Xidian University
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-04

Abstract

本发明公开了一种室内单视图场景语义重建方法及系统，该方法包括：对室内图像进行二维目标检测，得到二维边界框；对室内图像进行布局估计，得到室内布局初步估计参数；基于二维边界框，进行三维模型检索和三维目标检测，得到各个物体的三维模型检索结果和三维边界框初步估计参数；根据室内布局初步估计参数及三维边界框初步估计参数，进行场景图构建和图推理，得到室内布局估计参数和三维边界框估计参数；根据三维模型检索结果、室内布局估计参数和三维边界框估计参数，进行三维语义场景重建，从而得到物体的准确、完整的语义重建场景，实现整体场景语义重建。

Description

室内单视图场景语义重建方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种室内单视图场景语义重建方法及系统。

背景技术

单视图室内三维场景语义重建即根据单张室内图像提供一个语义丰富、几何准确和拓扑合理的室内三维场景表示，已成为一项重要且具有挑战性的任务。基于室内场景图像的语义重建在室内设计、房地产、数字孪生、室内装饰、机器人导航和AR/VR内容生成等许多领域中具有广泛的应用前景。然而，深度感知中固有的模糊性、真实环境的混乱和复杂性使得仅从单一图像中完全恢复场景上下文(包括语义和几何学)仍然具有挑战性，由于深度信息的缺失，从二维图像恢复三维空间是一个困难的问题，因为不同的三维场景可能投影产生相同的RGB图像。

Huang等在NeurIPS2018上提出了一个端到端的模型框架，能够从单张RGB图像中实时重建三维室内场景，包括三个子任务：3D房间布局、摄像机姿态和物体边界框。为了使三个子任务协同优化，他们引入了一种新颖的三维边界盒参数化方法和二维投影损失函数，以增强二维和三维之间的对齐。他们还设计了可微分的协同损失函数，有助于有效地联合训练两个主要模块：3D房间布局与物体边界框。但是，室内场景的语义重建既包括场景理解，也包括对象重建，之前的工作不能良好地耦合这两个任务在同一个模型框架下。

Nie等在CVPR2020中提出了一个从单张RGB图像端到端进行室内场景语义重建的方法Total3D，它将场景理解与对象网格重建嵌入融合在一起进行协同联合训练推理，主要包括三个子网络：三维室内布局估计(带有相机位姿)；三维目标检测；目标三角形网格(Mesh)生成网络，推理时全自动生成室内房间布局，摄像机姿态，物体三维边界框和网格三维模型，从而整体完备地恢复房间和物体对象的几何形状。Total3D中网格生成重建算法是基于球面模板的网格变形方法，变形过程中会删除边，有时候导致形成镂空，肉眼为观察到出现不少毛刺，对于遮挡和未见过的物体类别，效果更差，重建三维网格模型残缺不完整；而且上述方法没有对物体与物体之间的关系，物体与布局的关系等场景上下文信息综合考虑进去。目前三维目标位姿估计以及室内布局估计误差导致场景重建结果中出现：目标三维模型间彼此碰撞或重叠；目标超出墙体地板布局这两种场景关系混乱的情形。

基于上述问题，Kuo等在ECCV2020中首次提出基于单目图像跨域三维模型检索和二维目标分割实现对单张RGB室内图像包含的多个物体进行三维形状表示和位姿估计对齐的方法架构，被称为Mask2CAD。Kuo等在ICCV2021中进一步改进提出Patch2CAD方案，利用输入图像中目标的感兴趣区域(Region Of Interest，ROI)的补丁切片进行模型检索，相似性度量使用各自补丁块对应法线向量的自相似性直方图之间交并比(Intersection OverUnion，IOU)。Patch2CAD在复杂室内场景的效果更佳，但在计算三维目标中心点时二者都需要深度信息作为输入。Gumeli等在CVPR2022中提出一种新的端到端的框架，它可以稳健地检索三维CAD模型并对齐到单个输入图像，与以前执行直接姿态回归的方法相比，增加了深度图估计分支，为了利用可微的Procrustes优化来求解位姿，通过以深度和归一化对象坐标的一一对应形式去学习预测密集的2D-3D对应；另外，因为检索任务把三维模型用点云表示提取特征，所以预测的三维对应有助于学习几何相似的CAD模型的检索，同时改进对象姿态对齐。这三种方案的不足的是缺少布局估计任务，无法进行整体场景语义重建。

发明内容

本发明实施例提供一种室内单视图场景语义重建方法及系统，其能得到物体的准确、完整的语义，实现整体场景语义重建。

第一方面，本发明实施例提供了一种室内单视图场景语义重建方法，包括：

对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

对所述室内图像进行布局估计，得到室内布局初步估计参数；

根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

作为上述方案的改进，所述对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果，包括：

对预先构建的三维CAD模型库中各个三维模型进行多视角渲染，得到每个三维模型的多张灰度渲染图；

对所述第一物体图像进行颜色转换和增强；

对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取，得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征；

利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理，得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征；

分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射，得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量；

利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理，得到相应三维模型的多张灰度渲染图的自注意力特征向量；

将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重，从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合，得到相应三维模型的嵌入向量；

计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度，并选取相似度最大对应三维模型，作为相应物体的三维模型检索结果。

作为上述方案的改进，所述室内布局初步估计参数包括：相机姿态初步估计参数和室内布局边界框初步估计参数；

则，对所述室内图像进行布局估计，得到室内布局初步估计参数，包括：

对所述室内图像进行视觉特征提取；

采用第一多层感知网络对所述室内图像的视觉特征进行布局估计，得到相机姿态初步估计参数；

采用第二多层感知网络对所述室内图像的视觉特征进行布局估计，得到室内布局边界框初步估计参数。

作为上述方案的改进，所述对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数，包括：

计算任意两个物体的二维边界框之间的几何关系特征，并对所述几何关系特征进行位置编码，得到相应两个物体的编码特征；

对每个物体的第一物体图像进行视觉特征提取；

根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征；

对每个物体的关系特征进行级联聚合，得到相应物体的关系视觉特征；

采用第三多层感知网络对相应物体的关系视觉特征进行处理，得到相应物体的三维边界框初步估计参数。

作为上述方案的改进，所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，包括：

根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码，得到场景布局节点；

根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码，得到物体对象节点；

对所述场景布局节点与所述物体对象节点之间添加双向关系节点，对两个所述物体对象节点之间添加双向关系节点；

根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点，构建场景图。

作为上述方案的改进，所述对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数，包括：

采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新，得到更新后的场景图；其中，所述实体节点包括：场景布局节点、物体对象节点；

根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差；

根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差，得到最终的室内布局估计参数；

根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差，得到最终的三维边界框估计参数。

作为上述方案的改进，所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建，包括：

将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中，得到语义重建后的三维场景。

作为上述方案的改进，所述根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差，包括：

采用第四多层感知网络对更新后的场景图的关系节点进行处理，得到相机姿态初步估计参数的偏差；

采用第五多层感知网络对更新后的场景图的关系节点进行处理，得到室内布局边界框初步估计参数的偏差；

采用第六多层感知网络对更新后的场景图的实体节点进行处理，得到三维边界框初步参数的偏差。

作为上述方案的改进，所述根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征，包括：

根据每个物体的视觉特征，计算相应物体的视觉注意力分数；

根据相应的编码特征，计算相应物体的几何注意力分数；

根据所述视觉注意力分数和所述几何注意力分数，计算相应物体的权重；

根据每个物体的视觉特征及其相应的权重，得到相应物体的关系特征。

第二方面，本发明实施例提供了一种室内单视图场景语义重建系统，包括：

二维目标检测模块，用于对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

布局估计模块，用于对所述室内图像进行布局估计，得到室内布局初步估计参数；

三维模型检索模块，用于根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

三维目标检测模块，用于根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

图推理模块，用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

语义重建模块，用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

相对于现有技术，本发明实施例的有益效果在于：通过对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；对所述室内图像进行布局估计，得到室内布局初步估计参数；根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。通过使用三维模型检索方法替代现有的三维模型生成重建方法，可以从模型库中检索得到干净整洁的模型表示，从而得到物体的准确、完整的语义重建场景，实现整体场景语义重建。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所占据要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种室内单视图场景语义重建方法的流程图；

图2是本发明实施例提供的语义重建整体示意图；

图3是本发明实施例提供的语义重建流程示意图；

图4是本发明实施例提供的一种室内单视图场景语义重建系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参见图1，其是本发明实施例提供的一种室内单视图场景语义重建方法的流程图。所述室内单视图场景语义重建方法，具体包括：

S1：对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

对于一张室内图像，将其输入到预先训练好的二维目标检测网络进行目标检测，可以预测出所述室内处图像中包含物体的N个二维边界框及其语义类别。针对每一个物体的二维边界框n，用二维边界框的中心(x_n，y_n)与宽高(w_n，h_n)来表示，则可以表示为

用二维边界框的左上角点(x_min，y_min)和右下角点(x_max，y_max)来表示，则可以表示为/>

物体的语义类别用独热编码表示为/>

本发明实施例使用相对成熟容易的二维目标检测方法来检测室内图像的物体对象，不使用实例分割，不需要输入或者预测输入图像的深度图，可以有效提高方法的简易性、泛化性、适用性。

S2：对所述室内图像进行布局估计，得到室内布局初步估计参数；

S3：根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

示例性，采用每个物体的二维边界框

对所述室内图像进行裁剪，使得裁剪后得到的每个物体的第一物体图像/>

的尺度变化至224×224的固定大小，所述第一物体图像

作为单目图像三维模型检索的输入。

S4：根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

示例性，采用每个物体的二维边界框

对所述室内图像进行裁剪，使得裁剪后得到的每个物体的第二物体图像/>

的尺度变化至256×256的固定大小，所述第二物体图像

作为三维目标检测网络的输入。

S5：根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

S6：根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

在本发明实施例中，通过使用三维模型检索方法替代现有的三维模型生成重建方法，可以从模型库中检索得到干净整洁的模型表示，从而得到物体的准确、完整的语义重建场景，实现整体场景语义重建。

在一种可选的实施例中，所述对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果，包括：

对所述第一物体图像进行颜色转换和增强；

为了方便理解，下面对上述三维模型检索的整体流程进行说明，具体如下：

针对三维CAD模型库中的每个三维模型进行多视角渲染，视角指向三维模型的中心，分布在俯仰角为30度的水平圆环上，视角之间方位角等间隔分布，例如按照22.5度间隔分布。每个三维模型得到16张灰度渲染图，在检索任务中表征三维模型。

假设三维模型检索任务训练过程中，一个小批量训练数据集合B包含|B|个实例，其中第i个实例b_i包括一张第一物体图像q_i、对应三维模型的M张灰度渲染图r_i以及对应的一个语义标签y_i。则有：

其中，/>

是小批量中第i个实例三维模型的M张灰度渲染图集合。|B|是训练批量大小。

为了使每个输入的第一物体图像q_i在每个训练时期中得到不同的源图像颜色进行颜色转换数据增强，在同一训练小批量中的其他查询图像中为每个待输入的第一物体图像随机选取源彩色图像q_j进行颜色增强。具体首先将RGB空间中的图像转换为到lαβ空间，然后在lαβ空间中进行颜色转换，具体计算公式：

其中，lαβ和lα′β′分别代表颜色转移前和颜色转移后的颜色。μ和σ分别代表均值和标准差，下标s表示源彩色图像，下标t表示目标图像(即第一物体图像)。最后，将转换后的颜色增强图像转换回RGB颜色空间中。颜色转换后的待输入的第一物体图像q_i表示为

针对颜色转换后的第一物体图像

用CNN特征提取器f_q1(·)提取特征，得到所述第一物体图像/>

的图像特征/>

θ_q1为对应网络参数，F_i ^q1∈R^2048×7×7。其中，R^2048×7×7表示特征的元素为实数，特征的维度大小为通道维度2048×高度维7×宽度维度7。

针对三维模型的多张灰度渲染图

使用CNN特征提取器f_r1(·)提取特征，对于三维模型的多张灰度渲染图r_i中的每一张灰度渲染图/>

得到图像特征

θ_r1为对应网络参数，/>

三维模型的多张灰度渲染图共享网络参数提取特征得到图像特征为/>

为了减少背景的干扰，本发明实施例在CNN特征提取的基础上，添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征，特别是对于源域输入检索图片，能有效减少背景的干扰，使得网络聚焦学习前景目标区域的特征，而不是复杂背景，具体流程如下：

假设输入的图像特征为F∈R^C×H×W，卷积注意力模块首先计算一维通道注意力权重图M_c∈R^C×1×1；其次计算空间注意力二维权重图M_s∈R^1×H×W，具体计算公式如下：

其中F′表示中间特征，F″表示最终输出特征，

表示元素级乘法。

上述一维通道注意力权重图利用通道之间的关系来生成，首先使用全局平局池化与最大池化来分别压缩聚合输入的图像特征的每个通道特征图的空间信息，得到

其中，/>

表示对输入的图像特征的每个通道对应的特征图空间上进行全局平均池化后得到的特征，定义为空间域平局聚合特征，/>

表示对输入的图像特征的每个通道对应的特征图空间上进行全局最大池化后得到的特征，定义为空间域最大聚合特征。上标c表示对输入的图像特征每个通道的特征图空间维度上进行操作处理，从而得到通道注意力权重，c来自英文channel(通道)的首字母。

其次，将二者送入一个共享参数MLP(多层感知机)，MLP包含一个隐藏层，隐藏层的尺寸为R^C/a×1×1，a为压缩比率，将二者得到的输出进行元素加法；最后，通过Sigmoid激活函数得到一维通道注意力权重图M_c，具体计算公式如下：

其中σ为Sigmoid激活函数，W₀∈R^C/a×C和W₁∈R^C×C/a是MLP的共享参数。

上述空间注意力二维权重图利用中间特征F′的空间关系来得到一个空间注意权重图。具体计算公式如下：

其中σ为Sigmoid激活函数，f^7×7为卷积核大小为7×7的卷积操作，[；]为级联操作。首先对中间特征F′沿着通道轴分别进行平均池化和最大池化，得到

然后将二者并行级联，进行卷积激活操作得到空间注意力权重图M_s。其中，/>

表示对对中间特征F′沿着通道维度轴进行平均池化后得到的特征，定义为通道域平局聚合特征；和/>

表示对中间特征F′沿着通道轴分别进行最大池化后得到的特征，定义为通道域最大聚合特征。上标s表示对中间特征F′的空间维度中每个位置对应的多个通道维度进行操作处理，从而得到空间注意力权重，s来自英文Spatial(空间)的首字母。

源域与目标域的CNN后面添加通道空间注意力机制，形成串联卷积注意力模块。

针对上述从所述第一物体图像中提取出的图像特征F_i ^q1，使用独立的上述通道空间注意力模块，送入其中得到第一物体图像的注意力特征F_i ^q2；针对上述从三维模型的多张灰度渲染图中提取出的图像特征F_i ^r1，同样使用独立的上述卷积注意力模块，送入其中得到相应三维模型的多张灰度渲染图的注意力特征F_i ^r2。

针对所述第一物体图像的注意力特征F_i ^q2，先扁平化展开一维向量，然后使用一个包含一个隐藏层、ReLU激活函数和批量归一化层的MLP对所述第一物体图像的注意力特征F_i ^q2进行非线性仿射变换映射，实现特征嵌入自适应，得到所述第一物体图像的嵌入向量

输出维度设置为128，具体计算公式如下：

针对三维模型的多张灰度渲染图的注意力特征F_i ^r2，同样先扁平化展开一维向量，使用一个包含一个隐藏层、ReLU激活函数和批量归一化层的MLP对特征进行非线性映射，以求得能够良好表征单个视图的特征向量，最终得到F_i ^r3，输出维度设置为128，具体计算公式如下：

F_i ^r3＝Linear(ReLU(BN(Linear(F_i ^r2))))。

对第一物体图像使用非线性自适应映射实现特征嵌入自适应，进一步消除了背景以及纹理信息，从而得到第一物体图像目标精确几何特征；对三维模型多视角灰度渲染图使用非线性自适应映射能够提取更好表征视图几何的特征向量，同时使得第一物体图像的图像特征与多视角灰度渲染图的图像特征更容易良好地嵌入同一空间中。

针对三维模型的M张灰度渲染图的特征向量

送入自注意力模块，经过不同的可学习线性映射，得到查询嵌入矩阵Q_F、键嵌入矩阵K_F和值嵌入矩阵V_F，分别利用一层线性层实现，具体计算公式如下：

Q_F＝W^QF_i ^r3

K_F＝W^KF_i ^r3

V_F＝W^VF_i ^r3；

其中，W^Q、W^K、W^V分别代表查询嵌入线性层、键嵌入线性层、值嵌入线性层的可学习参数。通过Scaled Dot-Product Attention获得权重矩阵，对V_F进行加权求和，可用如下公式计算：

其中，Attention(Q_F,K_F,V_F)为注意力权重加权和函数，d_k为键嵌入向量的维度。将注意力结果与输入的灰度渲染图的特征向量F_i ^r3相加，通过层归一化(LayerNorm)得到相应三维模型的嵌入向量F_i ^r4，计算公式如下：

F_i ^r4＝LayerNorm(Attention(Q_F,K_F,V_F)+F_i ^r3)；

针对所述第一物体图像的嵌入向量

进行可学习线性映射得到的中间嵌入向量

使用一个线性层来实现，W^R是可学习参数，具体计算公式如下：

最后计算交叉注意力权重并加权求和得到特定第一物体图像多视图融合特征

即三维模型的嵌入向量，具体计算公式如下：

通过上述过程可以实现内部与外部相关性的注意力多视图特征注聚合。

损失函数：假设有z¹，z₂两个向量，⊙表示点积，则z₁，z₂之间的相似性可用sim(·)表示，其计算公式如下：

需要说明的是，单目图像跨域三维模型检索的一般性准则是让输入检索图像的特征嵌入与其对应真实三维模型多视角渲染图提取的融合特征嵌入的相似性最大，距离最小，比其他三维模型实例得到多视图融合嵌入特征更加接近。基于这一准则使用实例对比学习损失L₁，第一物体图像q_i将对应的真实三维模型作为正样本，即第一物体图像的嵌入向量

对应正样本为实例/>

(即三维模型的嵌入向量)，将小批量中剩余|B|-1个实例作为负样本，具体计算公式如下：

其中，τ∈(0,1]，为温度参数，该参数正向激励输入第一物体图像检索目标域正样本三维模型。由于在同一个小批次中可能存在与第一物体图像对应三维模型几何上很相似的实例，为了阻止过重的惩罚，采用类似软标签的思想调整τ′(τ,s_i,s_j)，使τ′温度尺度缩放因子成为实例s_i,s_j对应三维模型之间的交并比IOU的函数：

τ′(τ,s_i,s_j)＝τ+(1-τ)·Sigmoid(a′·IOU(s_i,s_j)+b′)；

其中，a′和b′分别常数缩放因子与常数偏置项参数。

为了拉大不同类别间三维模型的多张灰度渲染图的嵌入向量的间隔距离，同时充分利用训练数据中提供的目标域语义标签，受有监督对比学习启发的启发，使用引入类别级对比损失L₂，计算公式如下：

其中，P(i)＝{j|j∈B,j≠i,y_j＝y_i}，即将与输入第一物体图像的语义类别相同的实例作为类别正样本。将两种损失通过权重β₁结合得到总的损失：L₃＝L₁+β₁·L2。

在本发明实施例中，结合实例对比学习损失L₁与有监督语义类别对比学习损失L₂，从而提高检索结果实例精确度与语义精确度。

单目图像三维模型检索推理的过程中，使用裁剪得到每个物体的第一物体图像

通过CNN特征提取器、通道空间注意力模块、MLP输出一个嵌入向量，注意此时不需要对输入图片利用颜色转换模块增强。同时迭代计算三维模型库中每个三维模型多视图聚合特征(即上述三维模型的嵌入向量)，然后通过余弦距离sim(·)计算第一物体图像的嵌入向量与三维模型的嵌入向量的相似性，最后将相似性结果从高到底排名，选取相似性最高的三维模型的嵌入向量对应三维模型/>

作为检索结果。

在本发明实施例中，使用单目图像三维模型检索方法来等价替换三维模型生成重建，从模型库中检索得到干净整洁的模型表示，从而得到物体语义准确、物体完整的语义重建场景。单目图像三维模型检索步骤中，三维模型使用多视角灰度渲染图来表征，与图像特征映射至同一嵌入空间中进行相似性度量。具体而言，在训练阶段使用颜色变换数据增强，将训练集输入检索图像(即上述第一物体图像)之间的颜色与几何特征直接进行随机重新组合成新的检索图像，从而消除颜色与几何特征的耦合。在CNN特征提取的基础上，添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征，特别是对于源域输入检索图像，能有效减少背景的干扰，使得网络聚焦学习前景目标区域的特征，而不是复杂背景；以自注意力机制挖掘了多张视角灰度渲染图之间的信息关联，最后在输入检索图像和多视角灰度渲染图之间使用交叉注意力机制融合多视图特征；同时损失函数使用实例对比损失与语义类别对比损失相结合，提升单目图像三维模型检索的实例与语义精确度。

在一种可选的实施例中，所述室内布局初步估计参数包括：相机姿态初步估计参数和室内布局边界框初步估计参数；

对所述室内图像进行视觉特征提取；

其中，使用CNN特征提取器f^l(·)提取视觉特征f^l∈R2048。

示例性，所述第一多层感知网络包括两层MLP，隐藏层大小为1024；所述室内图像的视觉特征f^l经过两层MLP，隐藏层大小为1024，直接回归得到相机姿态初步估计参数，包括：俯仰角β和翻滚角γ，具体计算公式如下：

β,γ＝Linear(Dropout(ReLU(Linear(f^l))))。

示例性，所述第二多层感知网络包括三层MLP，隐藏层大小依次为2048、1024；所述室内图像的视觉特征f^l通过三层MLP，隐藏层大小依次为2048、1024，直接回归得到室内布局边界框初步估计参数，包括：中心点三维坐标C^l，布局方向θ^l以及布局三维尺寸大小s^l，具体计算公式如下：

f^l1＝Dropout(ReLU(Linear(f^l)))；

C^l,s^l＝Linear(Dropout(ReLU(Linear(f^l1))))；

θ^l＝Linear(Dropout(ReLU(Linear(f^l1))))。

在一种可选实施例中，所述对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数，包括：

对每个物体的第一物体图像进行视觉特征提取；

进一步，所述根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征，包括：

根据相应的编码特征，计算相应物体的几何注意力分数；

为了方便理解，下面对上述三维目标检测的整体流程进行说明，具体如下：

利用步骤S1获得的每个物体的二维边界框

对室内图像I进行裁剪尺度变化至256×256固定大小，得到每个物体的/>

作为三维目标检测网络的输入。

假设步骤S1得到N个物体的二维边界框，此时任意两个二维边界框m与n，得到对应中心宽高表示为

与/>

用下式计算几何关系特征/>

与/>

再利用位置编码得到

与/>

其中，/>

表示特征的元素为实数，特征的维度大小为d_g。计算公式如下：

其中i表示从0到d_g/4的整数字。

任意两个二维边界框m与n，用左上与右下角点表示为

与

用以下公式计算图像宽度与高度归一化的框角坐标/>

/>

其中I_w为输入的室内图像的宽度，I_h为为输入的室内图像的高度。

针对上述得到的每个物体对应图片区域

(即第二物体图像)，使用CNN特征提取器f^A(·)对每个物体的第二物体图像/>

提取视觉特征，得到/>

然后将提取出的每个物体的第二物体图像的视觉特征视

通过线性映射/>

分别得到Qⁱ,Kⁱ，Qⁱ表示注意力机制中的查询向量；/>

表示查询向量线性映射参数矩阵，Kⁱ表示注意力机制中的键向量，/>

表示键向量线性映射参数矩阵，/>

然后计算视觉注意力分数

公式如下：

针对上述得到的几何关系特征

与/>

使用线性映射/>

变换至标量，然后使用ReLU非线性激活，对几何关系特征进行使用下式计算几何注意力分数/>

之后将视觉注意力分数

与几何注意力分数/>

进行结合，得到相应物体的权重

具体计算公式如下：

其中，k表示室内图像二维检测物体中的第k个。

将每个物体的视觉特征

和其对应的权重/>

进行加权求和得到关系特征/>

计算公式如下：

其中，

为线性变换，输出维度减少为输入的1/N_r。

针对上述计算得到的关系特征

i表示从1到N_r，将总共N_r个独立的关系特征/>

进行级联聚合，然后与物体的视觉特征/>

相加，可以得到物体最终的关系视觉特征/>

在本发明实施例中，第三多层感知网络包括两层MLP，隐藏层大小为128。物体的关系视觉特征

通过两层MLP，隐藏层大小为128，直接回归得到物体三维边界框初步估计参数(δ,d,s,θ)，具体计算公式如下：

在一种可选的实施例中，所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，包括：

根据所述室内图像的视觉特征、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码，得到场景布局节点；

对所述场景布局节点与所述物体对象节点之间添加关系节点，对两个所述物体对象节点之间添加关系节点；

根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的关系节点以及两个所述物体对象节点之间的关系节点，构建场景图。

在一种可选的实施例中，所述对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数，包括：

其中，所述关系节点包括：所述场景布局节点与所述物体对象节点之间的关系节点以及两个所述物体对象节点之间的关系节点；

进一步，所述根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差，包括：

为了方便理解，下面对上述场景图构建和图推理的整体流程进行说明，具体如下：

场景图中节点嵌入包括：场景布局节点、物体对象节点以及实体节点之间的关系节点，该关系节点为双向关系节点；则有：

场景布局节点编码：对于所述室内图像的视觉特征f^l，所述相机姿态初步参数β,γ，所述室内布局边界框初步参数：中心点三维坐标C^l，布局方向θ^l以及布局三维尺寸大小s^l以及归一化相机内参先验矩阵K，首先统一扁平化展开成一维向量然后顺序连接得初始组合特征，接着对其使用一个2层的MLP非线性变换，得到场景布局节点Z^l∈R⁵¹²，具体计算公式如下：

Z^l＝Linear(ReLU(Linear(flatten(f^l,β,γ,C^l,θ^l,s^l,K))))。

物体对象节点编码：对于物体的关系视觉特征

物体的语义类别的独热编码

以及所述物体三维边界框初步参数(δ,d,s,θ)相级联，通过一个2层的MLP非线性变换，得到物体对象节点/>

具体计算公式如下：

关系节点编码：在场景图节点之间添加关系节点。对于场景布局节点与物体对象节点之间的关系节点

设置常量值初始化，后续利用图卷积神经网络推断它们之间合理的关系节点特征。对于连接物体对象节点与物体对象节点之间双向关系节点，使用上述编码后得到的二维边界框的几何关系特征/>

以及所述框角坐标/>

扁平化级联。每对物体对象节点对应两个有向关系节点，按照源节点到目标节点的方向性顺序连接归一化框角坐标。具体关系节点/>

计算公式如下：

场景图G包含N个物体对象和1个场景布局，则所有物体对象节点

等价于/>

以及场景布局节点Z^l等价于/>

则物体与场景布局等实体节点特征可以用矩阵Z^o∈R^d×(N+1)来表示，所有对象-对象关系节点/>

和布局-对象节点/>

可以用/>

表示，其中d为所述场景图中所有节点的编码嵌入向量长度。

采用图卷积神经网络进行图推理的过程如下：

假设从类型为b₁的源节点到类型为a₁的目标节点的线性变换为

节点类型可以是源实体节点s、目地实体节点d和关系节点r；α^sr＝α^dr＝1-I^N+1为邻接矩阵，表示主对角线元素全为0，其余为1的方阵。

则对于场景图中的实体节点的z^o更新一次可以用以下公式计算：

z^o1＝σ(z^o+W^sdZ^o+W^rsZ^rα^rs+W^rdZ^rα^rd)；

其中，W^rsZ^rα^rs+W^rdZ^rα^rd表示从相邻的关系节点传递消息，W^sdZ^o表示从实体节点传递消息，σ为Sigmoid激活函数。

对于场景图中的关系节点的更新一次可以用如下所示：

z^r1＝σ(z^r+W^srZ^oα^sr+W^drZ^oα^dr)；

其中，W^srZ^oα^sr+W^drZ^oα^dr表示从场景布局节点或者相邻节点传递消息。

图卷积神经网络经过四次消息传递更新步骤后停止消息传递，输出更新后的场景图，根据上述实体节点和关系节点的更新操作，得到更新四次后的每个实体节点z^o4与每个关系节点z^r4，从而得到Z^o4∈R^d×(N+1)与

对于场景布局与物体对象之间的空间关系进行显示建模，构建了支撑关系与邻近关系两种空间关系。

如果物体三维边界框的下表面与场景布局边界框的下表面足够接近，距离小于阈值即可判断二者存在支撑关系；对更新四次后的实体节点中的场景布局节点与物体对象间的双向关系节点

级联，送入一个独立的两层MLP结合交叉熵损失函数预测是否存在支撑关系。计算公式如下：

例如，y₁对应真实标签独热编码(one-hot)中y₁＝(1,0)表示存在支撑关系，y₁＝(0,1)表示不存在支撑关系。

物体与场景布局的邻近关系用来衡量物体与场景布局墙面靠近接触的关系，若物体沿水平方向将边界框的尺寸扩大一定阈值，物体边界框与场景布局发生碰撞，则认为二者存在邻近关系。对于更新四次后的实体节点中的场景布局节点与物体对象间的双向关系节点

级联，送入一个独立的两层MLP结合交叉熵损失函数预测是否存在邻近关系。计算公式如下：

例如，y₂对应真实标签独热编码(one-hot)中y₂＝(1,0)表示存在邻近关系，y₂＝(0,1)表示不存在邻近关系。

对于物体对象与物体对象之间的空间关系进行显示建模，构建了支撑关系，邻近关系以及朝向关系三种空间关系。当物体I在物体J的上方顶部很接近，物体I边界框的下表面与物体J的上表面之间的距离小于阈值，并且物体I与物体J在地面上投影的IOU高于阈值时，判定对象I和对象J存在支撑关系。水平邻近关系，用来表示处于同一平面上的物体对象间相互靠近接触的关系，当两个物体分别沿水平方向将边界框的尺寸扩大一定阈值，如果边界框相互碰撞则可判定存在邻近关系。物体之间支撑与邻近关系不会同时发生，因此构造支撑关系，邻近关系，无关系三种关系类别独热编码。

对更新四次后的实体节点中的物体对象节点与物体对象节点间的双向关系节点

与/>

级联，送入一个独立的两层MLP结合交叉熵损失函数预测是否支撑，是否邻近或者无关系。计算公式如下：

支撑，邻近或者无关系三者之间互斥，y₃对应真实标签独热编码(one-hot)中，y₃＝(1,0,0)表示存在支撑关系，y₃＝(0,1,0)表示存在邻近关系，y₃＝(0,0,1)表示无关系。

对场景中物体间朝向关系进行建模，以识别物体的之间相对排列。比如，椅子通常面对桌子等。具体而言，计算物体与物体间三维边界框正面法向量朝向之间的角度差异，将180度区间均匀划分为6个子区间，根据角度差异落在区间对朝向关系进行分类建模。对更新四次后的实体节点中的场景布局节点与物体对象节点之间的双向关系节点

与/>

级联，送入一个独立的两层MLP结合交叉熵损失函数预测朝向关系。计算公式如下：

将物体与物体间三维边界框正面法向量朝向之间的角度差异按照边界180度均匀划分为6个子区间：

y₄对应真实标签独热编码(one-hot)中，y₄＝(1,0,0,0,0,0)表示物体与物体间角度差坐落于区间[0,30)；y₄＝(0,1,0,0,0,0)表示物体与物体间角度差坐落于区间[30,60)；y₄＝(0,0,1,0,0,0)表示物体与物体间角度差坐落于区间[60,90)；y₄＝(0,0,0,1,0,0)表示物体与物体间角度差坐落于区间[90,120)；y₄＝(0,0,0,0,1,0)表示物体与物体间角度差坐落于区间[120,150)；y₄＝(0,0,0,0,0,1)表示物体与物体间角度差坐落于区间[150,180)。

通过添加这些支撑、邻近、朝向关系预测的代理损失，既能够引导网络预测更加准确的场景布局估计与物体三维目标检测，又能预测场景中物体与物体之间的空间关系丰富了场景中的语义信息。

在本发明实施例中，所述第四多层感知网络包括：两层MLP；所述第五多层感知网络包括：三层MLP；所述第六多层感知网络包括：两层MLP。则图解码流程如下：

对于场景布局节点，根据更新四次得到的实体节点

经过两层MLP，直接回归得到相机姿态初步估计参数的偏差，包括俯仰角Δβ和翻滚角Δγ，具体计算公式如下：

根据更新四次得到的实体节点

通过三层MLP，直接回归得到室内布局边界框初步估计参数的偏差：中心点三维坐ΔC^l，布局方向Δθ^l以及布局三维尺寸大小ΔS^l，具体计算公式如下：

对于物体对象节点，根据更新四次得到的实体节点

通过两层MLP，直接回归得到物体三维边界框初步参数(δ,d,s,θ)的偏差(Δδ，Δd，Δs，Δθ)，具体计算公式如下：

对于所述相机姿态初步参数β,γ以及所述室内布局边界框参数(C^l,s^l,θ^l)，和所述相机姿态初步参数的偏差Δβ，Δγ以及所述室内布局边界框参数的偏差(ΔC^l，ΔS^l，Δθ^l)，二者对应相加得到最终的精确的室内布局估计(包括相机姿态)参数

计算公式如下：

对于所述物体三维边界框初步估计参数(δ,d,s,θ)，和所述物体三维边界框初步参数的偏差(Δδ，Δd，Δs，Δθ)，二者直接对应相加，具体计算公式如下：

然后通过下式计算三维边界框的中心

其中，c^b为表示物体的二维边界框的中心(x_n,y_n)。得到最终精确的物体三维边界框的参数

表示相机旋转矩阵的逆矩阵。

在本发明实施例中，通过构建场景关系图建模场景上下文，对场景中物体对象与物体对象，物体对象与场景布局之间的关系进行隐式建模与显示建模，预测物体对象之间的空间关系来丰富场景中的语义信息。对不同类型的图节点，在图编码阶段，嵌入来自不同来源的组合特征，然后利用图卷积神经网络学习彼此间的关系，引导加强节点之间的信息传递，最后图解码初始估计的偏差与初始估计相加得到最终细化后估计，从而联合优化场景布局和对象的位姿尺寸。

在一种可选的实施例中，所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建，包括：

在本发明实施例中，将检索得到的三维模型

按照所述室内布局估计参数

和所述三维边界框估计参数/>

对齐放置在室内布局中，得到语义重建三维场景。/>

相对于现有技术，本发明实施例基于CAD模型检索和对齐进行室内三维场景语义重建，如图2和3所示，构建场景关系图建模场景物体与布局上下文，从而得到更加准确合理的室内布局和物体位姿尺寸估计，以及物体之间的空间关系；从CAD模型库中检索室内图像中物体的三维模型，在CNN特征提取器的基础上，添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征，特别是对于输入第一物体图像，能有效减少背景的干扰，使得网络聚焦学习前景目标区域的特征，而不是复杂背景；以自注意力机制挖掘了多张视角灰度渲染图之间的信息关联，最后在输入第一物体图像和多视角灰度渲染图之间使用交叉注意力机制融合多视图特征；同时损失函数使用实例对比损失与语义类别对比损失相结合，从而三维模型检索的实例准确率与语义准确率高，且不依赖二位实例分割，泛化性和适应性更好；将检索得到的三维模型根据预测的物体位姿尺寸放置在室内布局中，从而得到简洁、结构紧密和功能等效的语义重建CAD场景表示，它具有物体三维模型语义准确、几何形状完整，物体位姿尺寸和室内布局精准，结合物体之间的空间关系来丰富场景中语义信息的特点。

实施例二

请参阅图4，本发明实施例提供了一种室内单视图场景语义重建系统，包括：

二维目标检测模块1，用于对待处理的室内图像进行二维目标检测，得到所述室内图像中每个物体的二维边界框；

布局估计模块2，用于对所述室内图像进行布局估计，得到室内布局初步估计参数；

三维模型检索模块3，用于根据每个物体的二维边界框，对所述室内图像进行第一尺度裁剪，得到每个物体的第一物体图像，并对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果；

三维目标检测模块4，用于根据每个物体的二维边界框，对所述室内图像进行第二尺度裁剪，得到每个物体的第二物体图像，并对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数；

图推理模块5，用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，并对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数；

语义重建模块6，用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建。

在一种可选的实施例中，所述三维模型检索模块3包括：

图像渲染单元，用于对预先构建的三维CAD模型库中各个三维模型进行多视角渲染，得到每个三维模型的多张灰度渲染图；

颜色增强单元，用于对所述第一物体图像进行颜色转换和增强；

特征提取单元，用于对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取，得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征；

注意力机制处理单元，用于利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理，得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征；

非线性映射单元，用于分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射，得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量；

自注意力机制单元，用于利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理，得到相应三维模型的多张灰度渲染图的自注意力特征向量；

特征融合单元，用于将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重，从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合，得到相应三维模型的嵌入向量；

相似度计算单元，用于计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度，并选取相似度最大对应三维模型，作为相应物体的三维模型检索结果。

则，布局估计模块2包括：

第一视觉特征提取单元，用于对所述室内图像进行视觉特征提取；

相机姿态初步估计单元，用于采用第一多层感知网络对所述室内图像的视觉特征进行布局估计，得到相机姿态初步估计参数；

室内布局边界框初步估计单元，用于采用第二多层感知网络对所述室内图像的视觉特征进行布局估计，得到室内布局边界框初步估计参数。

在一种可选的实施例中，所述三维目标检测模块4包括：

特征编码单元，用于计算任意两个物体的二维边界框之间的几何关系特征，并对所述几何关系特征进行位置编码，得到相应两个物体的编码特征；

第二视觉特征提取单元，用于对每个物体的第一物体图像进行视觉特征提取；

关系特征计算单元，用于根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征；

关系视觉特征聚合单元，用于对每个物体的关系特征进行级联聚合，得到相应物体的关系视觉特征；

三维边界框初步估计单元，用于采用第三多层感知网络对相应物体的关系视觉特征进行处理，得到相应物体的三维边界框初步估计参数。

在一种可选的实施例中，所述图推理模块5包括：

场景布局节点编码单元，用于根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码，得到场景布局节点；

物体对象节点编码单元，用于根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码，得到物体对象节点；

关系节点添加单元，用于对所述场景布局节点与所述物体对象节点之间添加双向关系节点，对两个所述物体对象节点之间添加双向关系节点；

场景图构建单元，用于根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点，构建场景图。

在一种可选的实施例中，所述图推理模块5还包括：

场景图更新单元，用于采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新，得到更新后的场景图；其中，所述实体节点包括：场景布局节点、物体对象节点；

偏差计算单元，用于根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差；

室内布局估计参数计算单元，用于根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差，得到最终的室内布局估计参数；

三维边界框估计参数计算单元，用于根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差，得到最终的三维边界框估计参数。

在一种可选的实施例中，所述语义重建模块6包括：

三维重建单元，用于将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中，得到语义重建后的三维场景。

在一种可选的实施例中，所述偏差计算单元包括：

相机姿态初步估计参数的偏差计算单元，用于采用第四多层感知网络对更新后的场景图的关系节点进行处理，得到相机姿态初步估计参数的偏差；

室内布局边界框初步估计参数的偏差计算单元，用于采用第五多层感知网络对更新后的场景图的关系节点进行处理，得到室内布局边界框初步估计参数的偏差；

三维边界框初步参数的偏差计算单元，用于采用第六多层感知网络对更新后的场景图的实体节点进行处理，得到三维边界框初步参数的偏差。

在一种可选的实施例中，所述关系特征计算单元包括：

视觉注意力分数计算单元，用于根据每个物体的视觉特征，计算相应物体的视觉注意力分数；

几何注意力分数计算单元，用于根据相应的编码特征，计算相应物体的几何注意力分数；

物体权重计算单元，用于根据所述视觉注意力分数和所述几何注意力分数，计算相应物体的权重；

物体关系特征计算单元，用于根据每个物体的视觉特征及其相应的权重，得到相应物体的关系特征。

需要说明的是，本发明实施例的技术原理和实现的技术效果与实施例一相同，为避免重复，在这里不再赘述。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出多台改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种室内单视图场景语义重建方法，其特征在于，包括：

2.如权利要求1所述的室内单视图场景语义重建方法，其特征在于，所述对所述第一物体图像进行三维模型检索，得到各个物体的三维模型检索结果，包括：

对所述第一物体图像进行颜色转换和增强；

3.如权利要求1所述的室内单视图场景语义重建方法，其特征在于，所述室内布局初步估计参数包括：相机姿态初步估计参数和室内布局边界框初步估计参数；

对所述室内图像进行视觉特征提取；

4.如权利要求3所述的室内单视图场景语义重建方法，其特征在于，所述对根据所述第二物体图像进行三维目标检测，得到相应物体的三维边界框初步估计参数，包括：

对每个物体的第一物体图像进行视觉特征提取；

5.如权利要求4所述的室内单视图场景语义重建方法，其特征在于，所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数，构建场景图，包括：

6.如权利要求5所述的室内单视图场景语义重建方法，其特征在于，所述对所述场景图进行图推理，得到最终的室内布局估计参数和三维边界框估计参数，包括：

7.如权利要求1所述的室内单视图场景语义重建方法，其特征在于，所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数，进行三维语义场景重建，包括：

8.如权利要求6所述的室内单视图场景语义重建方法，其特征在于，所述根据更新后的场景图的实体节点和关系节点，计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差，包括：

9.如权利要求4所述的室内单视图场景语义重建方法，其特征在于，所述根据每个物体的视觉特征和相应的编码特征，计算每个物体的关系特征，包括：

根据相应的编码特征，计算相应物体的几何注意力分数；

10.一种室内单视图场景语义重建系统，其特征在于，包括：