CN112489204A - 基于rgb图像的3d房间布局重建系统 - Google Patents

基于rgb图像的3d房间布局重建系统 Download PDF

Info

Publication number
CN112489204A
CN112489204A CN202011455111.3A CN202011455111A CN112489204A CN 112489204 A CN112489204 A CN 112489204A CN 202011455111 A CN202011455111 A CN 202011455111A CN 112489204 A CN112489204 A CN 112489204A
Authority
CN
China
Prior art keywords
line
detection
plane
module
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011455111.3A
Other languages
English (en)
Inventor
袁晓军
杨诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Chenshi Technology Group Co ltd
Original Assignee
Zhejiang Chenshi Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Chenshi Technology Group Co ltd filed Critical Zhejiang Chenshi Technology Group Co ltd
Priority to CN202011455111.3A priority Critical patent/CN112489204A/zh
Publication of CN112489204A publication Critical patent/CN112489204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于RGB图像的3D房间布局重建系统,包括几何元素检测模块:基于卷积神经网络的主干网络来提取视觉特征;3D重建模块:用于重建3D的房间布局;所述几何元素检测模块包括平面检测模块、线段检测模块和推理模块;所述平面检测模块用于提取图像视觉特征并进行检测,输出检测对象的位置信息;所述线段检测模块用于提取图像视觉特征并进行检测,输出检测对象的位置信息;所述推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果,并进行去除重复检测;所述3D重建模块包括参数预测模块和重建模块;本发明停车检测图像中的平面和交线,判断相邻墙面的空间关系,通过插入虚拟平面解决遮挡问题,实现更加准确的房间布局3D重建。

Description

基于RGB图像的3D房间布局重建系统
技术领域
本发明属于,具体涉及一种基于RGB图像的3D房间布局重建系统。
背景技术
估计房间的布局结构是一项基本的视觉任务,该任务在实际场景中有多种应用。比如可以用在室内机器人导航,增强现实等等应用上。通常,房间的室内布局包含3种成分,天花板,地面和墙面。比起室内场景中的家具等活动成分,这三种成分是相对固定的,也是能反映出室内环境的一个整体结构。通常,对场景的3维结构进行估计需要利用多个视角的图像,利用三角测量的原理,估计出图像中像素点的深度,形成点云。比如常用的双目视觉系统,需要知道两个相机的空间位置关系,这可以通过标定的方式得到。然后利用两个相机从不同角度拍摄同一物体,最后利用复杂的匹配算法,才能比较准确的恢复场景的三维信息。当前,人工智能技术得到飞速发展,深度神经网络凭借其强大的表达能力和拟合能力解决了许多实际的问题,基于深度学习的人脸识别,行人检测方案已经应用于生活的方方面面。由于深度学习在2D图像领域取得了巨大的成功,许多研究人员开始将该技术用于3D场景,期望恢复场景的3D结构。在本发明中,也是基于这样的一个思路,利用深度神经网络来建模室内场景的三维结构,最终恢复出房间的布局。
基于单张图像的房间布局3D重构面临的最大困难就是遮挡问题。首先,由于墙面和家具之间存在遮挡,使得基于点云的重建方法容易失效,恢复出来的深度信息通常是位于前面家具上的,而不是真实的房间布局的深度信息;其次,由于视角和遮挡的原因,使得一些重要的图像特征,比如墙与墙的交线或者交点容易被部分遮挡。由于这些困难的存在,目前基于深度学习的房间布局3D重建的方法通常都具有较强的假设条件。
通常假设房间是满足曼哈顿假设的,即所有的墙面要么是平行的,要么是正交的,然后通过对消失点的估计来恢复房间的布局。在这个假设之上,还存在另外一种更强的假设,通过限制房间是一个方盒子,比如假设房间是长方体的。最近,研究人员开始关注恢复更加通用的房间布局。先进的目标检测算法去检测平面实例,然后根据多张图像检测结果,采用投票机制重构三维结构。基于PlaneRCNN的检测结果,将房间重建问题建模成一个离散优化问题,然而该方法速度较慢,通常处理一张图像需要几秒钟。
发明内容
为了解决上述问题,本发明提供了一种基于RGB图像的3D房间布局重建系统,通过将墙面建模成一个有序的序列,利用目标检测网络检测图像中的平面和交线;然后综合平面检测与交线检测结果判断相邻墙面的空间关系,最后通过插入虚拟平面解决遮挡问题,并且结合线检测结果优化平面参数实现更加准确的房间布局3D重建。
本发明的技术方案如下所示:
一种基于RGB图像的3D房间布局重建系统,包括:
几何元素检测模块:基于卷积神经网络的主干网络来提取视觉特征;
3D重建模块:用于重建3D的房间布局;
所述几何元素检测模块包括平面检测模块、线段检测模块和推理模块;
所述平面检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中的墙面,天花板和地面进行检测,输出检测对象的位置信息;
所述线段检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中墙面与墙面之间的交线进行检测,输出检测对象的位置信息;
所述推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果,并进行去除重复检测;
所述3D重建模块包括参数预测模块和重建模块;
所述参数预测模块用于预测像素级别的平面参数以及实例级别的参数;
所述重建模块用于对检测出的平面进行排序,并针对相邻平面创建公共区域,并判断检测出的线段是否位于该区域,根据判断结构重建3D的房间布局。
优选的,所述几何元素检测模块中利用的检测网络结构输入的RGB图像
Figure BDA0002828437210000021
还利用了主干网络HRNet-W32提取视觉特征F,其中
Figure BDA0002828437210000022
优选的,所述平面检测模块中的检测过程为:采用矩形框表示平面,矩形框的中心为c=(x,y),宽和高为s=(w,h);采用三个独立的两层卷积神经网络分别预测矩形框中心概率图
Figure BDA0002828437210000023
中心偏置图
Figure BDA0002828437210000024
和矩形框大小图
Figure BDA0002828437210000031
在训练过程中,对应的真实值为:
Figure BDA0002828437210000032
Figure BDA0002828437210000033
Figure BDA0002828437210000034
其中p=(x,y)是输出图的像素坐标,C的不同通道表示分别表示天花板,地面,墙面,δ为高斯函数的方差,c为矩形框中心坐标,s为矩形框的大小。
优选的,所述线段检测模块中的检测过程为:利用线的角度θ和位于线上的点集合
Figure BDA0002828437210000035
表示,其中
Figure BDA0002828437210000036
ymin,ymax表示在输出特征图上线段上的点的y坐标的最小值和最大值,ti表示线上的点,ti,x为ti的x坐标,ti,y表示ti的y坐标,N是整数集;采用另另外三个独立的两层卷积神经网络分别预测线段区域的概率图
Figure BDA0002828437210000037
线段上点的偏置图
Figure BDA0002828437210000038
和线段的角度图
Figure BDA0002828437210000039
在训练过程中,对应的真实值为:
Figure BDA00028284372100000310
Figure BDA00028284372100000311
Figure BDA00028284372100000312
p=(x,y)是输出图的像素坐标,px、py、ti,x、ti,y
分别表示p和ti的x和y坐标。
优选的,所述推理模块针对平面检测的具体过程为:从预测的概率图C中提取响应峰值位置,假设(x,y)是峰值位置,(ox,oy)是响应峰值位置对应的偏置预测,(w,h)为响应峰值位置对应的大小预测,最终检测的矩形框为:(x+ox,y+oy,w,h);针对平面的去重复检测采用基于交并比(IoU)的非极大值抑制算法来完成。
优选的,所述推理模块针对线段检测的具体过程为:线的等式设置为x=my+b,首先从预测的概率图L中的每行提取峰值响应位置;设(x,y)是峰值位置,ox是峰值位置x坐标的偏置预测,θ是峰值位置的线角度预测,参数化的线为:
m=1/tanθ;
b=x+ox-m*y;
针对线段的去重复检测采用非极大值抑制算法,且两条线在图像中相交或者每一行的x坐标的最大距离小于阈值,则丢掉低置信度的检测。
优选的,针对参数的预测过程为:利用法线n和偏置d表示3D面:nP+d=0,设v=[n,d],利用下述公式来预测像素级别的平面参数Vpix和实例级别的参数Vins
Vpix(p)=v;
Figure BDA0002828437210000041
优选的,所述重建过程为:将所有检测出来的墙面按照中心的x坐标值进行排序,对于两个相邻的墙面,定义一个公共区域U,该表示两个相邻的墙面的交线位于其中,设两个相邻的墙面的矩形框分别为
Figure BDA0002828437210000042
对应的宽和高为(wl,hl),(wr,hr),则公共区域的定义如下:
Figure BDA0002828437210000043
Figure BDA0002828437210000044
U=(left,0,right,H);
其中ratio=0.25、band=10,H、W分别为图像的高和宽。
优选的,所述重建过程还包括步骤:判断是否有已检测到的直线位于公共区域U中,用α∈{0,1}表示;同时通过两个相邻的墙面的3D参数计算投影的2D交线是否位于该区域中,用β∈{0,1}表示。将上述情况分类:
1、α=1,β=1:表示两个平面在3D空间相交,并且交线被检测;
2、α=0,β=1:表示两个平面在3D空间相交,但是交线没有被检测;
3、α=1,β=0:表示两个平面在3D空间不相交,遮挡交线被检测;
4、α=0,β=0:表示误报。
优选的,针对情况1,优化3D平面参数,使得预测的3D平面参数和2D线检测保持一致,构建墙面,交线,墙面的三元组集合Ω,以及墙面集合
Figure BDA0002828437210000051
优化的目标函数如下:
Figure BDA0002828437210000052
Figure BDA0002828437210000053
其中λ1,λ2,λ3表示权重参数,lj为交线的参数,采用BFGS算法来优化目标函数;针对情况3和情况4,3D平面参数表明两个相邻的墙面在3D空间中不相交,需手动添加一个虚拟平面,使得相邻的墙面相交;在情况3中,虚拟平面的2D投影和遮挡线重合,在情况4中,在公共区域U中间插入一条竖直的遮挡线,新添加的虚拟平面的2D投影与该线重合;虚拟平面满足下面等式:
nK-1p=0;
n0+d=0;
p为直线上的两点的齐次坐标;
最后将检测的平面和添加的虚拟平面按照x坐标排序,对于相邻的两个墙面,利用优化后的平面参数,计算其与天花板和地面的交点,若天花板和地面不存在,则将图像的上下边界视为天花板和地面,然后将3D交点投影回2D图像平面,形成房间布局分割,计算公式如下:
NP=D;
p~KP;
其中N为系数矩阵,D为偏置,P为3D交点坐标,p为投影的2D图像坐标。
本发明有益效果:本发明实现了一套基于单张图像的室内场景布局3D重建的系统,对房间的结构没有曼哈顿的假设条件,仅仅假设房间具有一个天花板和一个地面,而墙面数量是可变的。这种假设条件是合理的,生活中常见的房间通常具有这个特征。通过将墙面建模成一个有序的序列,利用目标检测网络检测图像中的平面和交线。然后综合平面检测与交线检测结果判断相邻墙面的空间关系。最后通过插入虚拟平面解决遮挡问题,并且结合线检测结果优化平面参数实现更加准确的房间布局3D重建。
附图说明
图1为检测网络结构;
其中I为输入图像,BackBone为HRNet-W32 FPN网络,F为特征图,Conv为卷积神经网络,Branch为多个卷积神经网络集合。
具体实施方式
下面将结合说明书附图对本发明的实施例进行详细说明。
一种基于RGB图像的3D房间布局重建系统,包括:
几何元素检测模块:基于卷积神经网络的主干网络来提取视觉特征;
3D重建模块:用于重建3D的房间布局;
几何元素检测模块包括平面检测模块、线段检测模块和推理模块;
平面检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中的墙面,天花板和地面进行检测,输出检测对象的位置信息;
线段检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中墙面与墙面之间的交线进行检测,输出检测对象的位置信息;
推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果,并进行去除重复检测;
所述3D重建模块包括参数预测模块和重建模块;
参数预测模块用于预测像素级别的平面参数以及实例级别的参数;
重建模块用于对检测出的平面进行排序,并针对相邻平面创建公共区域,并判断检测出的线段是否位于该区域,根据判断结构重建3D的房间布局。
作为本发明的一种实施方式,其中几何元素检测:检测网络结构如图1所示,输入RGB图像
Figure BDA0002828437210000071
利用基于卷积神经网络的主干网络(BACKBONE)来提取视觉特征。
F=BACKBONE(I)
这里
Figure BDA0002828437210000072
主干网络采用HRNet-W32[8],输出特征图下采样率是输入的4倍。
作为本发明的一种实施方式,其中平面检测模块:类似于CenterNet[9],用一个矩形框表示平面,其中c=(x,y)是矩形框的中心,s=(w,h)为矩形框的宽和高。采用三个独立的两层卷积神经网络分别预测矩形框中心概率图
Figure BDA0002828437210000073
中心偏置图
Figure BDA0002828437210000074
和矩形框大小图
Figure BDA0002828437210000075
训练时对应的真实值如下:
Figure BDA0002828437210000076
Figure BDA0002828437210000077
Figure BDA0002828437210000078
这里p=(x,y)是输出图的像素坐标,C的每个通道分别表示天花板,地面,墙面。采用Focal loss[10]和标准的L1损失函数监督网络的训练。
作为本发明的一种实施方式,其中线段检测:
对于一条2D的线,用线的角度θ和位于线上的点集合
Figure BDA0002828437210000079
表示:
Figure BDA00028284372100000710
ymin,ymax表示在输出特征图上线段上的点的y坐标的最小值和最大值,ti表示线上的点,ti,x为ti的x坐标,ti,y表示ti的y坐标,N是整数集。
采用另外一个分支来预测线段区域的概率图
Figure BDA00028284372100000711
线上点的偏置图
Figure BDA00028284372100000712
和线段的角度图
Figure BDA00028284372100000713
训练时对应的真实值如下:
Figure BDA00028284372100000714
Figure BDA0002828437210000081
Figure BDA0002828437210000082
这里p=(x,y)时输出图的像素坐标。px,py,ti,x,ti,y分别表示p和ti的x和y坐标。使用Focal loss[10]和标准的L1损失函数监督网络的训练。
作为本发明的一种实施方式,其中推理模块,在推理阶段,从预测的热力图中提取参数化的平面和线检测结果。对于平面,首先从预测的概率图C中提取响应峰值位置,假设(x,y)是峰值位置,(ox,oy)是该位置对应的偏置预测,(w,h)是该位置对应的大小预测。那么检测的矩形框为:
(x+ox,y+oy,w,h)
对于线,假设线的等式为x=my+b,首先从预测的概率图L中的每行提取峰值响应位置。假设(x,y)是峰值位置,ox是该位置x坐标的偏置预测,θ是该位置的线角度预测。那么参数化的线为:
m=1/tanθ
b=x+ox-m*y
使用非极大值抑制算法去除重复检测。对于平面,使用基于交并比(IoU)的非极大值抑制算法去除重复的面检测,该过程是在所有的类别检测结果中一起进行。而对于线的非极大值抑制算法,如果两条线在图像中相交或者每一行的x坐标的最大距离小于阈值,则丢掉低置信度的检测。
作为本发明的一种实施方式,其中3D参数预测:为了重建3D的房间布局,进一步预测每个平面的3D参数。用法线n和偏置d表示3D平面:nP+d=0。假设v=[n,d],预测像素级别的平面参数Vpix和实例级别的参数Vins
Vpix(p)=v,
Figure BDA0002828437210000083
在训练过程中,对预测的平面参数进行监督。损失函数包括标准的L1损失函数和深度损失函数。深度损失函数是通过将预测的平面参数转为深度值,转换公式如下:
z=-d/(nK-1p)
这里p为像素齐次坐标,K为相机内参。最后采用标准的L1损失函数进行监督训练。
作为本发明的一种实施方式,首先将所有检测出来的墙面按照中心的x坐标值进行排序,对于两个相邻的墙面,定义一个公共区域U,该区域表示这两个墙面的交线应该位于其中。假设两个墙面的矩形框分别
Figure BDA0002828437210000091
对应的宽和高为(wl,hl),(wr,hr),则公共区域的定义如下:
Figure BDA0002828437210000092
Figure BDA0002828437210000093
U=(left,0,right,H)
这里ratio=0.25,band=10,H,W分别为图像的高和宽。
接着,判断是否有已检测到的直线位于该区域中,用α∈{0,1}表示。同时,通过这两个平面的3D参数计算投影的2D交线是否位于该区域中,用β∈{0,1}表示。将上述情况分类:
1.α=1,β=1:表示两个平面在3D空间相交,并且交线被检测。
2.α=0,β=1:表示两个平面在3D空间相交,但是交线没有被检测。
3.α=1,β=0:表示两个平面在3D空间不相交,遮挡交线被检测。
4.α=0,β=0:表示误报。
针对情况1,优化3D平面参数,使得预测的3D平面参数和2D线检测保持一致。构建墙面,交线,墙面的三元组集合Ω,以及墙面集合
Figure BDA0002828437210000094
优化的目标函数如下:
Figure BDA0002828437210000095
这里λ1,λ2,λ3表示权重参数,lj为交线的参数,采用BFGS算法优化该函数。
针对情况3和情况4,3D平面参数表明这两个平面在3D空间中不相交,因此需要手动添加一个虚拟平面,使得相邻平面相交。在情况3中,虚拟平面的2D投影和遮挡线重合,而在情况4中,在公共区域U中间插入一条竖直的遮挡线,添加的虚拟平面的2D投影与该线重合。虚拟平面满足下面等式:
nK-1p=0
n0+d=0
这里p为直线上的两点的齐次坐标。
最后将检测的平面和添加的虚拟平面按照x坐标排序,对于相邻的两个平面,利用优化后的平面参数,计算其与天花板和地面的交点,如果天花板和地面不存在,则将图像的上下边界视为天花板和地面,然后将3D交点投影回2D图像平面,形成房间布局分割,计算公式如下:
NP=D;
p~KP;
这里N为系数矩阵,D为偏置,P为3D交点坐标,p为投影的2D图像坐标。本实施例提供了系统训练与测试:在Structure3D数据集上验证方法的有效性。该数据集包含3500个3D房间场景。将68K张图像作为训练集,6K图像作为验证集,6K图像作为测试集。采用Adam优化器优化网络,初始学习率为0.0001,批量大小为24,在第30,第40epoch处降低学习率为原来的0.1倍,一共训练50epochs。网络的输入图像大小为640*384*3。为了测试方法的有效性,在测试集上和目前先进的Planar R-CNN[5]和Render-and-Compare[6]进行了对比。
系统评价标准:采用Render-and-Compare[6]的评价标准,评价指标包括:
2D IoU:预测的2D房间布局和真实布局实例级别的交并比误差;
PixelError(PE):预测的2D房间布局和真实布局的像素级别误差;
EdgeError(EE):预测的2D房间布局和真实布局在分割边界处的误差;
RMSE:预测的房间布局和真实布局的3D深度误差。
方法 2D IoU(%) PE(%) EE(%) RMSE
Planar RCNN 79.55 7.04 6.61 0.290
Render-and-Compare 77.74 7.30 6.84 0.297
Ours(w/o opt) 79.72 6.52 6.84 0.297
Ours 81.17 5.94 5.79 0.303
实验结果如上表所示,从实验结果中可以看出,在2D指标上的方法相比于对比的方法有了明显的提升。值得注意的是,Planar RCNN在单张图像上的重建结果,每个平面之间是独立的,房间布局在三维空间不是一个整体,而的方法和Render-and-Compare则是一个整体,这在表达上是更好的。此外,在该测试集上,Render-and-Compare方法有大约6.33%的图像没有最优解,重建失败,因此在计算指标时,只计算了其成功重建的那部分。相比于Render-and-Compare,的方法在2D IoU上具有3.43%提升,在PE上有1.36%的提升,在EE上有1.05%的提升,而3D深度误差上则相似。对比平面参数优化前后的结果,可以发现经过优化,2D指标有了明显的提升,而3D效果则是轻微下降,主要原因是在优化过程中没有添加3D信息约束。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于RGB图像的3D房间布局重建系统,其特征在于,包括:
几何元素检测模块:基于卷积神经网络的主干网络来提取视觉特征;
3D重建模块:用于重建3D的房间布局;
所述几何元素检测模块包括平面检测模块、线段检测模块和推理模块;
所述平面检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中的墙面,天花板和地面进行检测,输出检测对象的位置信息;
所述线段检测模块用于提取图像视觉特征,基于视觉特征利用卷积神经网络对图像中墙面与墙面之间的交线进行检测,输出检测对象的位置信息;
所述推理模块用于提取平面检测模块、线段检测模块中参数化的检测结果,并进行去除重复检测;
所述3D重建模块包括参数预测模块和重建模块;
所述参数预测模块用于预测像素级别的平面参数以及实例级别的参数;
所述重建模块用于对检测出的平面进行排序,并针对相邻平面创建公共区域,并判断检测出的线段是否位于该区域,根据判断结构重建3D的房间布局。
2.根据权利要求1所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述几何元素检测模块中利用的检测网络结构输入的RGB图像
Figure FDA0002828437200000011
还利用了主干网络HRNet-W32提取视觉特征F,其中
Figure FDA0002828437200000012
3.根据权利要求1所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述平面检测模块中的检测过程为:采用矩形框表示平面,矩形框的中心为c=(x,y),宽和高为s=(w,h);采用三个独立的两层卷积神经网络分别预测矩形框中心概率图
Figure FDA0002828437200000013
中心偏置图
Figure FDA0002828437200000014
和矩形框大小图
Figure FDA0002828437200000015
在训练过程中,对应的真实值为:
Figure FDA0002828437200000016
Figure FDA0002828437200000017
Figure FDA0002828437200000018
其中p=(x,y)是输出图的像素坐标,C的不同通道表示分别表示天花板,地面,墙面,δ为高斯函数的方差,c为矩形框中心坐标,s为矩形框的大小。
4.根据权利要求1所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述线段检测模块中的检测过程为:利用线的角度θ和位于线上的点集合
Figure FDA0002828437200000021
表示,其中
Figure FDA0002828437200000022
ymin,ymax表示在输出特征图上线段上的点的y坐标的最小值和最大值,ti表示线上的点,ti,x为ti的x坐标,ti,y表示ti的y坐标,N是整数集;采用另另外三个独立的两层卷积神经网络分别预测线段区域的概率图
Figure FDA0002828437200000023
线段上点的偏置图
Figure FDA0002828437200000024
和线段的角度图
Figure FDA0002828437200000025
在训练过程中,对应的真实值为:
Figure FDA0002828437200000026
Figure FDA0002828437200000027
Figure FDA0002828437200000028
p=(x,y)是输出图的像素坐标,px、py、ti,x、ti,y分别表示p和ti的x和y坐标。
5.根据权利要求3所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述推理模块针对平面检测的具体过程为:从预测的概率图C中提取响应峰值位置,假设(x,y)是峰值位置,(ox,oy)是响应峰值位置对应的偏置预测,(w,h)为响应峰值位置对应的大小预测,最终检测的矩形框为:(x+ox,y+oy,w,h);针对平面的去重复检测采用基于交并比(IoU)的非极大值抑制算法来完成。
6.根据权利要求4所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述推理模块针对线段检测的具体过程为:线的等式设置为x=my+b,首先从预测的概率图L中的每行提取峰值响应位置;设(x,y)是峰值位置,ox是峰值位置x坐标的偏置预测,θ是峰值位置的线角度预测,参数化的线为:
m=1/tanθ;
b=x+ox-m*y;
针对线段的去重复检测采用非极大值抑制算法,且两条线在图像中相交或者每一行的x坐标的最大距离小于阈值,则丢掉低置信度的检测。
7.根据权利要求1所述的基于RGB图像的3D房间布局重建系统,其特征在于,针对参数的预测过程为:利用法线n和偏置d表示3D平面:nP+d=0,设v=[n,d],利用下述公式来预测像素级别的平面参数Vpix和实例级别的参数Vins
Vpix(p)=v;
Figure FDA0002828437200000031
8.根据权利要求3所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述重建过程为:将所有检测出来的墙面按照中心的x坐标值进行排序,对于两个相邻的墙面,定义一个公共区域U,该表示两个相邻的墙面的交线位于其中,设两个相邻的墙面的矩形框分别为
Figure FDA0002828437200000032
对应的宽和高为(wl,hl),(wr,hr),则公共区域的定义如下:
Figure FDA0002828437200000033
Figure FDA0002828437200000034
U=(left,0,right,H);
其中ratio=0.25、band=10,H、W分别为图像的高和宽。
9.根据权利要求8所述的基于RGB图像的3D房间布局重建系统,其特征在于,所述重建过程还包括步骤:判断是否有已检测到的直线位于公共区域U中,用α∈{0,1}表示;同时通过两个相邻的墙面的3D参数计算投影的2D交线是否位于该区域中,用β∈{0,1}表示。将上述情况分类:
a、α=1,β=1:表示两个平面在3D空间相交,并且交线被检测;
b、α=0,β=1:表示两个平面在3D空间相交,但是交线没有被检测;
c、α=1,β=0:表示两个平面在3D空间不相交,遮挡交线被检测;
d、α=0,β=0:表示误报。
10.根据权利要求9所述的基于RGB图像的3D房间布局重建系统,其特征在于,针对情况a,优化3D平面参数,使得预测的3D平面参数和2D线检测保持一致,构建墙面,交线,墙面的三元组集合Ω,以及墙面集合
Figure FDA0002828437200000041
优化的目标函数如下:
Figure FDA0002828437200000042
Figure FDA0002828437200000043
其中λ1,λ2,λ3表示权重参数,lj为交线的参数,采用BFGS算法来优化目标函数;针对情况c和情况d,3D平面参数表明两个相邻的墙面在3D空间中不相交,需手动添加一个虚拟平面,使得相邻的墙面相交;在情况c中,虚拟平面的2D投影和遮挡线重合,而在情况d中,在公共区域U中间插入一条竖直的遮挡线,新添加的虚拟平面的2D投影与该线重合;虚拟平面满足下面等式:
nK-1p=0;n0+d=0;p为直线上的两点的齐次坐标;
最后将检测的平面和添加的虚拟平面按照x坐标排序,对于相邻的两个墙面,利用优化后的平面参数,计算其与天花板和地面的交点,若天花板和地面不存在,则将图像的上下边界视为天花板和地面,然后将3D交点投影回2D图像平面,形成房间布局分割,计算公式如下:
Np=D;p~KP;其中N为系数矩阵,D为偏置,P为3D交点坐标,p为投影的2D图像坐标。
CN202011455111.3A 2020-12-10 2020-12-10 基于rgb图像的3d房间布局重建系统 Pending CN112489204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011455111.3A CN112489204A (zh) 2020-12-10 2020-12-10 基于rgb图像的3d房间布局重建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011455111.3A CN112489204A (zh) 2020-12-10 2020-12-10 基于rgb图像的3d房间布局重建系统

Publications (1)

Publication Number Publication Date
CN112489204A true CN112489204A (zh) 2021-03-12

Family

ID=74916705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011455111.3A Pending CN112489204A (zh) 2020-12-10 2020-12-10 基于rgb图像的3d房间布局重建系统

Country Status (1)

Country Link
CN (1) CN112489204A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071490A (zh) * 2022-10-25 2023-05-05 杭州华橙软件技术有限公司 室内空间布局的重构方法及重构装置、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140333615A1 (en) * 2013-05-11 2014-11-13 Mitsubishi Electric Research Laboratories, Inc. Method For Reconstructing 3D Scenes From 2D Images
CN104851127A (zh) * 2015-05-15 2015-08-19 北京理工大学深圳研究院 一种基于交互的建筑物点云模型纹理映射方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140333615A1 (en) * 2013-05-11 2014-11-13 Mitsubishi Electric Research Laboratories, Inc. Method For Reconstructing 3D Scenes From 2D Images
CN104851127A (zh) * 2015-05-15 2015-08-19 北京理工大学深圳研究院 一种基于交互的建筑物点云模型纹理映射方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHIJIT KUNDU 等: "3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compare", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》, 30 June 2018 (2018-06-30), pages 3559 - 3568, XP033476326, DOI: 10.1109/CVPR.2018.00375 *
王锐: "基于行人航位推算(PDR)技术的室内导航系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2020 (2020-02-15), pages 136 - 2108 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071490A (zh) * 2022-10-25 2023-05-05 杭州华橙软件技术有限公司 室内空间布局的重构方法及重构装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN111190981B (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
CN106940704B (zh) 一种基于栅格地图的定位方法及装置
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
Zhou et al. Learning to reconstruct 3d manhattan wireframes from a single image
US12031842B2 (en) Method and apparatus for binocular ranging
CN110909671B (zh) 一种融合概率和高度信息的栅格地图障碍物检测方法
Gupta et al. Real-time stereo matching using adaptive binary window
US20120177283A1 (en) Forming 3d models using two images
CN111209770A (zh) 一种车道线识别方法及装置
KR102393345B1 (ko) 3차원 점군 처리 시스템 및 방법
US20230065774A1 (en) Computer Vision Systems and Methods for Modeling Three-Dimensional Structures Using Two-Dimensional Segments Detected in Digital Aerial Images
CN112785705A (zh) 一种位姿获取方法、装置及移动设备
CN113052880A (zh) 一种sfm稀疏重建方法、系统及应用
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN112489204A (zh) 基于rgb图像的3d房间布局重建系统
CN111402429B (zh) 一种尺度还原、三维重建方法、系统、存储介质及设备
KR102220769B1 (ko) 깊이 지도 생성 방법, 깊이 지도 생성 장치, 영상 변환 방법 및 영상 변환 장치
US8847954B1 (en) Methods and systems to compute 3D surfaces
CN116912515A (zh) 一种基于LoD的VSLAM特征点检测方法
CN115239776B (zh) 点云的配准方法、装置、设备和介质
Neverova et al. 2 1/2 D scene reconstruction of indoor scenes from single RGB-D images
JP2023065296A (ja) 平面検出装置及び方法
CN111583331B (zh) 用于同时定位和地图构建的方法及装置
CN111144489B (zh) 匹配对滤除方法、装置、电子设备与存储介质
Miyama Fast stereo matching with super-pixels using one-way check and score filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination