CN112489204A

CN112489204A - 基于rgb图像的3d房间布局重建系统

Info

Publication number: CN112489204A
Application number: CN202011455111.3A
Authority: CN
Inventors: 袁晓军; 杨诚
Original assignee: Zhejiang Chenshi Technology Group Co ltd
Current assignee: Zhejiang Chenshi Technology Group Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-12

Abstract

本发明涉及一种基于RGB图像的3D房间布局重建系统，包括几何元素检测模块：基于卷积神经网络的主干网络来提取视觉特征；3D重建模块：用于重建3D的房间布局；所述几何元素检测模块包括平面检测模块、线段检测模块和推理模块；所述平面检测模块用于提取图像视觉特征并进行检测，输出检测对象的位置信息；所述线段检测模块用于提取图像视觉特征并进行检测，输出检测对象的位置信息；所述推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果，并进行去除重复检测；所述3D重建模块包括参数预测模块和重建模块；本发明停车检测图像中的平面和交线，判断相邻墙面的空间关系，通过插入虚拟平面解决遮挡问题，实现更加准确的房间布局3D重建。

Description

基于RGB图像的3D房间布局重建系统

技术领域

本发明属于，具体涉及一种基于RGB图像的3D房间布局重建系统。

背景技术

估计房间的布局结构是一项基本的视觉任务，该任务在实际场景中有多种应用。比如可以用在室内机器人导航，增强现实等等应用上。通常，房间的室内布局包含3种成分，天花板，地面和墙面。比起室内场景中的家具等活动成分，这三种成分是相对固定的，也是能反映出室内环境的一个整体结构。通常，对场景的3维结构进行估计需要利用多个视角的图像，利用三角测量的原理，估计出图像中像素点的深度，形成点云。比如常用的双目视觉系统，需要知道两个相机的空间位置关系，这可以通过标定的方式得到。然后利用两个相机从不同角度拍摄同一物体，最后利用复杂的匹配算法，才能比较准确的恢复场景的三维信息。当前，人工智能技术得到飞速发展，深度神经网络凭借其强大的表达能力和拟合能力解决了许多实际的问题，基于深度学习的人脸识别，行人检测方案已经应用于生活的方方面面。由于深度学习在2D图像领域取得了巨大的成功，许多研究人员开始将该技术用于3D场景，期望恢复场景的3D结构。在本发明中，也是基于这样的一个思路，利用深度神经网络来建模室内场景的三维结构，最终恢复出房间的布局。

基于单张图像的房间布局3D重构面临的最大困难就是遮挡问题。首先，由于墙面和家具之间存在遮挡，使得基于点云的重建方法容易失效，恢复出来的深度信息通常是位于前面家具上的，而不是真实的房间布局的深度信息；其次，由于视角和遮挡的原因，使得一些重要的图像特征，比如墙与墙的交线或者交点容易被部分遮挡。由于这些困难的存在，目前基于深度学习的房间布局3D重建的方法通常都具有较强的假设条件。

通常假设房间是满足曼哈顿假设的，即所有的墙面要么是平行的，要么是正交的，然后通过对消失点的估计来恢复房间的布局。在这个假设之上，还存在另外一种更强的假设，通过限制房间是一个方盒子，比如假设房间是长方体的。最近，研究人员开始关注恢复更加通用的房间布局。先进的目标检测算法去检测平面实例，然后根据多张图像检测结果，采用投票机制重构三维结构。基于PlaneRCNN的检测结果，将房间重建问题建模成一个离散优化问题，然而该方法速度较慢，通常处理一张图像需要几秒钟。

发明内容

为了解决上述问题，本发明提供了一种基于RGB图像的3D房间布局重建系统，通过将墙面建模成一个有序的序列，利用目标检测网络检测图像中的平面和交线；然后综合平面检测与交线检测结果判断相邻墙面的空间关系，最后通过插入虚拟平面解决遮挡问题，并且结合线检测结果优化平面参数实现更加准确的房间布局3D重建。

本发明的技术方案如下所示：

一种基于RGB图像的3D房间布局重建系统，包括：

几何元素检测模块：基于卷积神经网络的主干网络来提取视觉特征；

3D重建模块：用于重建3D的房间布局；

所述几何元素检测模块包括平面检测模块、线段检测模块和推理模块；

所述平面检测模块用于提取图像视觉特征，基于视觉特征利用卷积神经网络对图像中的墙面，天花板和地面进行检测，输出检测对象的位置信息；

所述线段检测模块用于提取图像视觉特征，基于视觉特征利用卷积神经网络对图像中墙面与墙面之间的交线进行检测，输出检测对象的位置信息；

所述推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果，并进行去除重复检测；

所述3D重建模块包括参数预测模块和重建模块；

所述参数预测模块用于预测像素级别的平面参数以及实例级别的参数；

所述重建模块用于对检测出的平面进行排序，并针对相邻平面创建公共区域，并判断检测出的线段是否位于该区域，根据判断结构重建3D的房间布局。

优选的，所述几何元素检测模块中利用的检测网络结构输入的RGB图像

还利用了主干网络HRNet-W32提取视觉特征F，其中

优选的，所述平面检测模块中的检测过程为：采用矩形框表示平面，矩形框的中心为c＝(x,y)，宽和高为s＝(w,h)；采用三个独立的两层卷积神经网络分别预测矩形框中心概率图

中心偏置图

和矩形框大小图

在训练过程中，对应的真实值为：

其中p＝(x，y)是输出图的像素坐标，C的不同通道表示分别表示天花板，地面，墙面，δ为高斯函数的方差，c为矩形框中心坐标，s为矩形框的大小。

优选的，所述线段检测模块中的检测过程为：利用线的角度θ和位于线上的点集合

表示，其中

y_min，y_max表示在输出特征图上线段上的点的y坐标的最小值和最大值，t_i表示线上的点，t_i，x为t_i的x坐标，t_i，y表示t_i的y坐标，N是整数集；采用另另外三个独立的两层卷积神经网络分别预测线段区域的概率图

线段上点的偏置图

和线段的角度图

在训练过程中，对应的真实值为：

p＝(x，y)是输出图的像素坐标，p_x、p_y、t_i,x、t_i,y

分别表示p和t_i的x和y坐标。

优选的，所述推理模块针对平面检测的具体过程为：从预测的概率图C中提取响应峰值位置，假设(x，y)是峰值位置，(ox，oy)是响应峰值位置对应的偏置预测，(w，h)为响应峰值位置对应的大小预测，最终检测的矩形框为：(x+ox，y+oy，w，h)；针对平面的去重复检测采用基于交并比(IoU)的非极大值抑制算法来完成。

优选的，所述推理模块针对线段检测的具体过程为：线的等式设置为x＝my+b，首先从预测的概率图L中的每行提取峰值响应位置；设(x，y)是峰值位置，ox是峰值位置x坐标的偏置预测，θ是峰值位置的线角度预测，参数化的线为：

m＝1/tanθ；

b＝x+ox-m*y；

针对线段的去重复检测采用非极大值抑制算法，且两条线在图像中相交或者每一行的x坐标的最大距离小于阈值，则丢掉低置信度的检测。

优选的，针对参数的预测过程为：利用法线n和偏置d表示3D面:nP+d＝0，设v＝[n，d]，利用下述公式来预测像素级别的平面参数V^pix和实例级别的参数V^ins；

V^pix(p)＝v；

优选的，所述重建过程为：将所有检测出来的墙面按照中心的x坐标值进行排序，对于两个相邻的墙面，定义一个公共区域U，该表示两个相邻的墙面的交线位于其中,设两个相邻的墙面的矩形框分别为

对应的宽和高为(w^l，h^l)，(w^r,h^r)，则公共区域的定义如下：

U＝(left,0,right,H)；

其中ratio＝0.25、band＝10，H、W分别为图像的高和宽。

优选的，所述重建过程还包括步骤：判断是否有已检测到的直线位于公共区域U中，用α∈{0,1}表示；同时通过两个相邻的墙面的3D参数计算投影的2D交线是否位于该区域中，用β∈{0,1}表示。将上述情况分类：

1、α＝1，β＝1：表示两个平面在3D空间相交，并且交线被检测；

2、α＝0，β＝1：表示两个平面在3D空间相交，但是交线没有被检测；

3、α＝1，β＝0：表示两个平面在3D空间不相交，遮挡交线被检测；

4、α＝0，β＝0：表示误报。

优选的，针对情况1，优化3D平面参数，使得预测的3D平面参数和2D线检测保持一致，构建墙面，交线，墙面的三元组集合Ω，以及墙面集合

优化的目标函数如下：

其中λ₁，λ₂，λ₃表示权重参数，l_j为交线的参数，采用BFGS算法来优化目标函数；针对情况3和情况4，3D平面参数表明两个相邻的墙面在3D空间中不相交，需手动添加一个虚拟平面，使得相邻的墙面相交；在情况3中，虚拟平面的2D投影和遮挡线重合，在情况4中，在公共区域U中间插入一条竖直的遮挡线，新添加的虚拟平面的2D投影与该线重合；虚拟平面满足下面等式：

nK^-1p＝0；

n0+d＝0；

p为直线上的两点的齐次坐标；

最后将检测的平面和添加的虚拟平面按照x坐标排序，对于相邻的两个墙面，利用优化后的平面参数，计算其与天花板和地面的交点，若天花板和地面不存在，则将图像的上下边界视为天花板和地面，然后将3D交点投影回2D图像平面，形成房间布局分割，计算公式如下：

NP＝D；

p～KP；

其中N为系数矩阵，D为偏置，P为3D交点坐标，p为投影的2D图像坐标。

本发明有益效果：本发明实现了一套基于单张图像的室内场景布局3D重建的系统，对房间的结构没有曼哈顿的假设条件，仅仅假设房间具有一个天花板和一个地面，而墙面数量是可变的。这种假设条件是合理的，生活中常见的房间通常具有这个特征。通过将墙面建模成一个有序的序列，利用目标检测网络检测图像中的平面和交线。然后综合平面检测与交线检测结果判断相邻墙面的空间关系。最后通过插入虚拟平面解决遮挡问题，并且结合线检测结果优化平面参数实现更加准确的房间布局3D重建。

附图说明

图1为检测网络结构；

其中I为输入图像，BackBone为HRNet-W32 FPN网络，F为特征图，Conv为卷积神经网络，Branch为多个卷积神经网络集合。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

一种基于RGB图像的3D房间布局重建系统，包括：

3D重建模块：用于重建3D的房间布局；

几何元素检测模块包括平面检测模块、线段检测模块和推理模块；

平面检测模块用于提取图像视觉特征，基于视觉特征利用卷积神经网络对图像中的墙面，天花板和地面进行检测，输出检测对象的位置信息；

线段检测模块用于提取图像视觉特征，基于视觉特征利用卷积神经网络对图像中墙面与墙面之间的交线进行检测，输出检测对象的位置信息；

推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果，并进行去除重复检测；

所述3D重建模块包括参数预测模块和重建模块；

参数预测模块用于预测像素级别的平面参数以及实例级别的参数；

重建模块用于对检测出的平面进行排序，并针对相邻平面创建公共区域，并判断检测出的线段是否位于该区域，根据判断结构重建3D的房间布局。

作为本发明的一种实施方式，其中几何元素检测：检测网络结构如图1所示，输入RGB图像

利用基于卷积神经网络的主干网络(BACKBONE)来提取视觉特征。

F＝BACKBONE(I)

这里

主干网络采用HRNet-W32[8]，输出特征图下采样率是输入的4倍。

作为本发明的一种实施方式，其中平面检测模块：类似于CenterNet[9]，用一个矩形框表示平面，其中c＝(x，y)是矩形框的中心，s＝(w，h)为矩形框的宽和高。采用三个独立的两层卷积神经网络分别预测矩形框中心概率图

中心偏置图

和矩形框大小图

训练时对应的真实值如下：

这里p＝(x，y)是输出图的像素坐标，C的每个通道分别表示天花板，地面，墙面。采用Focal loss[10]和标准的L1损失函数监督网络的训练。

作为本发明的一种实施方式，其中线段检测：

对于一条2D的线，用线的角度θ和位于线上的点集合

表示：

y_min，y_max表示在输出特征图上线段上的点的y坐标的最小值和最大值，t_i表示线上的点，t_i，x为t_i的x坐标，t_i，y表示t_i的y坐标，N是整数集。

采用另外一个分支来预测线段区域的概率图

线上点的偏置图

和线段的角度图

训练时对应的真实值如下：

这里p＝(x，y)时输出图的像素坐标。p_x，p_y，t_i，x，t_i，y分别表示p和t_i的x和y坐标。使用Focal loss[10]和标准的L1损失函数监督网络的训练。

作为本发明的一种实施方式，其中推理模块，在推理阶段，从预测的热力图中提取参数化的平面和线检测结果。对于平面，首先从预测的概率图C中提取响应峰值位置，假设(x，y)是峰值位置，(ox，oy)是该位置对应的偏置预测，(w，h)是该位置对应的大小预测。那么检测的矩形框为：

(x+ox，y+oy，w，h)

对于线，假设线的等式为x＝my+b，首先从预测的概率图L中的每行提取峰值响应位置。假设(x，y)是峰值位置，ox是该位置x坐标的偏置预测，θ是该位置的线角度预测。那么参数化的线为：

m＝1/tanθ

b＝x+ox-m*y

使用非极大值抑制算法去除重复检测。对于平面，使用基于交并比(IoU)的非极大值抑制算法去除重复的面检测，该过程是在所有的类别检测结果中一起进行。而对于线的非极大值抑制算法，如果两条线在图像中相交或者每一行的x坐标的最大距离小于阈值，则丢掉低置信度的检测。

作为本发明的一种实施方式，其中3D参数预测：为了重建3D的房间布局，进一步预测每个平面的3D参数。用法线n和偏置d表示3D平面:nP+d＝0。假设v＝[n，d]，预测像素级别的平面参数V^pix和实例级别的参数V^ins：

V^pix(p)＝v，

在训练过程中，对预测的平面参数进行监督。损失函数包括标准的L1损失函数和深度损失函数。深度损失函数是通过将预测的平面参数转为深度值，转换公式如下：

z＝-d/(nK^-1p)

这里p为像素齐次坐标，K为相机内参。最后采用标准的L1损失函数进行监督训练。

作为本发明的一种实施方式，首先将所有检测出来的墙面按照中心的x坐标值进行排序，对于两个相邻的墙面，定义一个公共区域U，该区域表示这两个墙面的交线应该位于其中。假设两个墙面的矩形框分别

对应的宽和高为(w^l，h^l),(w^r，h^r)，则公共区域的定义如下：

U＝(left，0，right，H)

这里ratio＝0.25，band＝10，H，W分别为图像的高和宽。

接着，判断是否有已检测到的直线位于该区域中，用α∈{0，1}表示。同时，通过这两个平面的3D参数计算投影的2D交线是否位于该区域中，用β∈{0，1}表示。将上述情况分类：

1.α＝1，β＝1:表示两个平面在3D空间相交，并且交线被检测。

2.α＝0，β＝1:表示两个平面在3D空间相交，但是交线没有被检测。

3.α＝1，β＝0:表示两个平面在3D空间不相交，遮挡交线被检测。

4.α＝0，β＝0:表示误报。

针对情况1，优化3D平面参数，使得预测的3D平面参数和2D线检测保持一致。构建墙面，交线，墙面的三元组集合Ω，以及墙面集合

优化的目标函数如下：

这里λ₁，λ₂，λ₃表示权重参数，l_j为交线的参数，采用BFGS算法优化该函数。

针对情况3和情况4，3D平面参数表明这两个平面在3D空间中不相交，因此需要手动添加一个虚拟平面，使得相邻平面相交。在情况3中，虚拟平面的2D投影和遮挡线重合，而在情况4中，在公共区域U中间插入一条竖直的遮挡线，添加的虚拟平面的2D投影与该线重合。虚拟平面满足下面等式：

nK^-1p＝0

n0+d＝0

这里p为直线上的两点的齐次坐标。

最后将检测的平面和添加的虚拟平面按照x坐标排序，对于相邻的两个平面，利用优化后的平面参数，计算其与天花板和地面的交点，如果天花板和地面不存在，则将图像的上下边界视为天花板和地面，然后将3D交点投影回2D图像平面，形成房间布局分割，计算公式如下：

NP＝D；

p～KP；

这里N为系数矩阵，D为偏置，P为3D交点坐标，p为投影的2D图像坐标。本实施例提供了系统训练与测试：在Structure3D数据集上验证方法的有效性。该数据集包含3500个3D房间场景。将68K张图像作为训练集，6K图像作为验证集，6K图像作为测试集。采用Adam优化器优化网络，初始学习率为0.0001，批量大小为24，在第30，第40epoch处降低学习率为原来的0.1倍，一共训练50epochs。网络的输入图像大小为640*384*3。为了测试方法的有效性，在测试集上和目前先进的Planar R-CNN[5]和Render-and-Compare[6]进行了对比。

系统评价标准：采用Render-and-Compare[6]的评价标准，评价指标包括：

2D IoU：预测的2D房间布局和真实布局实例级别的交并比误差；

PixelError(PE)：预测的2D房间布局和真实布局的像素级别误差；

EdgeError(EE)：预测的2D房间布局和真实布局在分割边界处的误差；

RMSE：预测的房间布局和真实布局的3D深度误差。

方法	2D IoU(％)	PE(％)	EE(％)	RMSE
					Planar RCNN	79.55	7.04	6.61	0.290
Render-and-Compare	77.74	7.30	6.84	0.297
					Ours(w/o opt)	79.72	6.52	6.84	0.297
Ours	81.17	5.94	5.79	0.303

实验结果如上表所示，从实验结果中可以看出，在2D指标上的方法相比于对比的方法有了明显的提升。值得注意的是，Planar RCNN在单张图像上的重建结果，每个平面之间是独立的，房间布局在三维空间不是一个整体，而的方法和Render-and-Compare则是一个整体，这在表达上是更好的。此外，在该测试集上，Render-and-Compare方法有大约6.33％的图像没有最优解，重建失败，因此在计算指标时，只计算了其成功重建的那部分。相比于Render-and-Compare，的方法在2D IoU上具有3.43％提升，在PE上有1.36％的提升，在EE上有1.05％的提升，而3D深度误差上则相似。对比平面参数优化前后的结果，可以发现经过优化，2D指标有了明显的提升，而3D效果则是轻微下降，主要原因是在优化过程中没有添加3D信息约束。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于RGB图像的3D房间布局重建系统，其特征在于，包括：

3D重建模块：用于重建3D的房间布局；

所述3D重建模块包括参数预测模块和重建模块；

2.根据权利要求1所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述几何元素检测模块中利用的检测网络结构输入的RGB图像

还利用了主干网络HRNet-W32提取视觉特征F，其中

3.根据权利要求1所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述平面检测模块中的检测过程为：采用矩形框表示平面，矩形框的中心为c＝(x,y)，宽和高为s＝(w,h)；采用三个独立的两层卷积神经网络分别预测矩形框中心概率图

中心偏置图

和矩形框大小图

在训练过程中，对应的真实值为：

4.根据权利要求1所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述线段检测模块中的检测过程为：利用线的角度θ和位于线上的点集合

表示，其中

线段上点的偏置图

和线段的角度图

在训练过程中，对应的真实值为：

p＝(x，y)是输出图的像素坐标，p_x、p_y、t_i，x、t_i，y分别表示p和t_i的x和y坐标。

5.根据权利要求3所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述推理模块针对平面检测的具体过程为：从预测的概率图C中提取响应峰值位置，假设(x，y)是峰值位置，(ox，oy)是响应峰值位置对应的偏置预测，(w，h)为响应峰值位置对应的大小预测，最终检测的矩形框为：(x+ox，y+oy，w，h)；针对平面的去重复检测采用基于交并比(IoU)的非极大值抑制算法来完成。

6.根据权利要求4所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述推理模块针对线段检测的具体过程为：线的等式设置为x＝my+b，首先从预测的概率图L中的每行提取峰值响应位置；设(x，y)是峰值位置，o_x是峰值位置x坐标的偏置预测，θ是峰值位置的线角度预测，参数化的线为：

m＝1/tanθ；

b＝x+ox-m*y；

7.根据权利要求1所述的基于RGB图像的3D房间布局重建系统，其特征在于，针对参数的预测过程为：利用法线n和偏置d表示3D平面：nP+d＝0，设v＝[n，d]，利用下述公式来预测像素级别的平面参数V^pix和实例级别的参数V^ins：

V^pix(p)＝v；

8.根据权利要求3所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述重建过程为：将所有检测出来的墙面按照中心的x坐标值进行排序，对于两个相邻的墙面，定义一个公共区域U，该表示两个相邻的墙面的交线位于其中，设两个相邻的墙面的矩形框分别为

对应的宽和高为(w^l，h^l)，(w^r，h^r)，则公共区域的定义如下：

U＝(left，0，right，H)；

其中ratio＝0.25、band＝10，H、W分别为图像的高和宽。

9.根据权利要求8所述的基于RGB图像的3D房间布局重建系统，其特征在于，所述重建过程还包括步骤：判断是否有已检测到的直线位于公共区域U中，用α∈{0，1}表示；同时通过两个相邻的墙面的3D参数计算投影的2D交线是否位于该区域中，用β∈{0，1}表示。将上述情况分类：

a、α＝1，β＝1：表示两个平面在3D空间相交，并且交线被检测；

b、α＝0，β＝1：表示两个平面在3D空间相交，但是交线没有被检测；

c、α＝1，β＝0：表示两个平面在3D空间不相交，遮挡交线被检测；

d、α＝0，β＝0：表示误报。

10.根据权利要求9所述的基于RGB图像的3D房间布局重建系统，其特征在于，针对情况a，优化3D平面参数，使得预测的3D平面参数和2D线检测保持一致，构建墙面，交线，墙面的三元组集合Ω，以及墙面集合

优化的目标函数如下：

其中λ₁，λ₂，λ₃表示权重参数，l_j为交线的参数，采用BFGS算法来优化目标函数；针对情况c和情况d，3D平面参数表明两个相邻的墙面在3D空间中不相交，需手动添加一个虚拟平面，使得相邻的墙面相交；在情况c中，虚拟平面的2D投影和遮挡线重合，而在情况d中，在公共区域U中间插入一条竖直的遮挡线，新添加的虚拟平面的2D投影与该线重合；虚拟平面满足下面等式：

nK^-1p＝0；n0+d＝0；p为直线上的两点的齐次坐标；

Np＝D；p～KP；其中N为系数矩阵，D为偏置，P为3D交点坐标，p为投影的2D图像坐标。