CN107292234B - 一种基于信息边缘和多模态特征的室内场景布局估计方法 - Google Patents
一种基于信息边缘和多模态特征的室内场景布局估计方法 Download PDFInfo
- Publication number
- CN107292234B CN107292234B CN201710347401.8A CN201710347401A CN107292234B CN 107292234 B CN107292234 B CN 107292234B CN 201710347401 A CN201710347401 A CN 201710347401A CN 107292234 B CN107292234 B CN 107292234B
- Authority
- CN
- China
- Prior art keywords
- layout
- image
- polygon
- indoor scene
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
Abstract
本发明公开了一种基于信息边缘和多模态特征的室内场景布局估计方法,针对图像用边缘检测提取直线段由此估计出图像消失点,从消失点出发做采样射线粗划分图像区域;用全卷积神经网络(FCNs)获取信息边缘图,选取图中能量较高区域并细采样产生布局候选项;基于积分几何提取图像的线段、几何上下文、深度、法向量特征;考虑布局候选项与区域级特征一元和二元的映射关系,设计布局估计的结构化回归模型,引入结构化学习算法,能量函数最小的即为室内场景布局估计。本发明逐步缩小候选项生成区域,并结合多种模态特征对布局候选项进行约束,提高了室内估计布局精度。
Description
技术领域
本发明涉及一种基于信息边缘和多模态特征的室内场景布局估计方法,特别涉及一种基于信息边缘由粗到精布局候选项生成和多模态异构特征融合的室内场景布局估计方法。
背景技术
图像场景理解是计算机视觉研究中的一项必要工作,笼统的来说,场景理解就是一个对传感器捕捉的场景、通过一系列视觉信息和知识信息的处理分析、最终得到图像语义解释的过程。图像场景理解其实是一种相对宽泛的概念,它包含了计算机视觉里的诸多研究范围和应用领域,诸如图像搜索引擎、自动导航、计算机摄影、图像视觉、人机交互、虚拟现实以及其他应用上的需求。图像场景理解有着广泛的应用前景和巨大的经济商业价值,能更好的提高人们的生活质量。在这些需求的推动下,基于视觉的图像场景理解能够有效地帮助和提高计算机对于复杂多变室内外场景的分析和认知能力,是计算机视觉领域研究的最终愿景。
现实世界中,室内场景作为人类的主要生活场所,与室外场景相比具有更重要的地位。室内场景布局估计是图像场景理解的重要研究内容,是全局场景理解的分支。基本目标是通过给定的图像把握其所示场景空间中的几何结构。比如在智能家居中设计移动机器人,机器人通过摄像头看到的画面是室内二维图像,如何通过这个场景图像判断室内各个物体的位置和尺寸?如何判断机器人自由安全的行走路径?如何分析机器人工作的内容范围?这些都需要其能理解未知环境空间的结构化几何信息。本文室内场景的布局估计是对这方面的研究,可以说室内场景布局估计是计算机视觉领域的基础研究,为更高层级的研究和应用打下了坚实的基础,已成为计算机视觉领域的研究热点。
在透视投影理论下,室内场景布局估计问题的方法主要在模型设计和特征选取两方面有不同。模型建立方面,文献[Hoiem D,Efros A A,Hebert M."Recovering surfacelayout from an image,"In International Journal of Computer Vision,75(1):151-172,2007]通过消失点产生投影射线,以投影射线夹角的角度形式化此类问题,整个模型主要有三个步骤:提取蕴含空间布局有用视觉线索的特征(如消失点、特征直线以及三维点云等);产生场景空间盒布局候选集;选取最好的空间结构化布局。文献[Wang H,Gould S,Roller D."Discriminative learning with latent variables for cluttered indoorscene understanding,"In Communications of the ACM,56(4):92-99,2013.]中加入隐变量的概念计算杂乱,将室内空间中的家居和装饰品等杂乱都定义为隐变量,文献[JianZhang;Chen Kan;Schwing,A.G.;Urtasun,R.,"Estimating the 3D Layout of IndoorScenes and Its Clutter from Depth Sensors,"In IEEE International Conferenceon,vol.,no.,pp.1273-1280,1-8Dec.2013.]将室内场景中的布局与杂物放在同一个模型框架下进行联合预测,文献[Chao Y W,Choi W,Pantofaru C,et al.“Layout Estimationof Highly Cluttered Indoor Scenes using Geometric and Semantic Cues,”InInternational Conference on Image Analysis and Processing:489-499,2013.]利用空间中人的视角和物体的三维几何关系来约束消失点。
传统的特征主要分为线结构特征和区域特征,比如消失点、消失线和边界检测特征都是线结构特征;外观、纹理、几何上下文和方向图等都是基于像素或者像素块的区域特征。文献Liu,F.,et al."Learning Depth from Single Monocular Images Using DeepConvolutional Neural Fields,"In IEEE Transactions on Pattern Analysis&MachineIntelligence38.10:1-1,2015]引入了深度特征;文献[Dollar,P.;Zitnick,C.L.,"Structured Forests for Fast Edge Detection,"In IEEE International Conferenceon,vol.,no.,pp.1841-1848,1-8Dec.2013.]提出了结构化森林的方法提取边界线结构特征,文献[Mallya A,Lazebnik S.Learning Informative Edge Maps for Indoor SceneLayout Prediction.International Conference on Computer Vision.2015:936-944.]提出的FCN结构模型将边缘线特征通过学习,得出信息边缘图用于生成布局检测的特征。
发明内容
针对上述方法难于弱化图像中家居等生活用品对候选项的干扰及未充分利用多特征和特征基元间二元关系问题,本发明提供一种基于信息边缘和多模态特征的室内场景布局估计方法,利用信息边缘由粗到精生成候选项并基于区域多特征推论布局估计的分步室内场景布局估计框架。本发明针对图像用边缘检测提取直线段由此估计出图像消失点,从消失点出发做采样射线粗划分图像区域;用全卷积神经网络(FCNs)获取信息边缘图,选取图中能量较高区域并细采样产生布局候选项;基于积分几何提取图像的线段、几何上下文、深度、法向量特征;考虑布局候选项与区域级特征一元和二元的映射关系,设计布局估计的结构化回归模型,引入结构化学习算法,能量函数最小的即为室内场景布局估计。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于信息边缘和多模态特征的室内场景布局估计方法,包括以下具体步骤:
步骤A,针对室内场景图像,根据检测出的边缘直线段进行消失点估计,从消失点出发以设定第一采样频率对场景图像区域进行粗划分;
步骤B,针对室内场景图像,采用卷积神经网络获取场景图像的信息边缘图,选取步骤1中粗划分后场景图像区域中能量高出设定阈值的区域,并对该区域进行以设定第二采样频率进行细划分,产生布局候选项;
步骤C,针对室内场景图像,提取其线组成员、几何上下文、深度、法向量特征,并采用积分几何累加计算方法对四个特征进行累加,得到场景图像的区域级特征;
步骤D,根据布局候选项到特征的一元和二元映射关系,设计布局估计的结构化回归模型,引入结构化学习算法对结构化回归模型进行训练学习,通过训练学习完成的模型进行室内场景布局估计。
作为本发明的进一步技术方案,A1,针对室内场景图像,利用边缘检测算子对其进行边缘检测以获取场景图像中的边缘轮廓,并设定长度阈值筛选出边缘轮廓中的直线段;
A2,采用Rother’s算法的投票策略,根据A1中获得的直线段进行消失点估计,得到空间直角坐标系中x、y、z方向上的三个正交消失点;
A3,分别从x、y方向上的消失点出发,以z方向上的消失点为参照,等角度间隔、以设定第一采样频率做出射线对场景图像区域进行粗划分。
作为本发明的进一步技术方案,步骤A1中边缘检测算子为Canny算子或Roberts算子或Sobel算子或Prewitt算子。
作为本发明的进一步技术方案,步骤A2中采用Rother’s算法的投票策略,根据A1中获得的直线段进行消失点估计,具体为:
1)将A1中获得的筛选后的直线段进行x、y、z方向上线段的划分,分别用于估计x、y、z方向上的消失点;
2)x方向的线段集合记为{lvi},1≤i≤n,n为x上的线段数目,pk为{lvi}中线段两两相交的形成第k个交点,1≤k≤K,K为{lvi}中线段两两相交的形成的交点数目,则第i个x方向线段lvi对pk的得分贡献为:
其中,α表示lvi与pk和lvi中点的连线之间的夹角,γ是设定阈值;
4)所有K个交点中得分最高的即为x方向上的消失点vp1;
5)基于如2)至4)中相同的投票得分机制,分别获得y方向上的消失点vp2与z方向上的消失点vp3。
作为本发明的进一步技术方案,步骤B具体为:
B1,针对室内场景图像,利用全卷积神经网络、通过多个卷积层提取图像像素级的特征图,并将最后一层的特征图用反卷积层进行上采样,产生信息边缘图和几何上下文标签图;
B2,分别统计步骤A中粗划分后的每个场景图像区域中的能量项高于设定能量阈值的数量;
B3,以z方向上的消失点作为参考点,在其上、下、左、右四个方向各选取一个能量项数量最高的区域;
B4,分别计算B3中选取的四个区域上两条射线的夹角角度,并以设定第二采样频率作出细采样射线对每个夹角进行等角度间隔划分,各细采样射线间的交点形成布局候选项的中墙角点,产生布局候选项。
作为本发明的进一步技术方案,步骤B1中采用Caffe深度学习基于VGG-16的全卷积神经网络,产生信息边缘图和几何上下文标签图。
作为本发明的进一步技术方案,步骤C具体为:
C1,线组成员特征和几何上下文特征即为分别由步骤A1中获得的直线段信息和步骤B1获得的几何上下文信息;
C2,基于单一多尺度卷积网络结构,在像素级别获取室内场景图像的深度特征和表面法向量特征;
C3,采用积分几何累加计算方法,累加计算C1和C2中获取的所有特征,得到场景图像的区域级特征。
作为本发明的进一步技术方案,步骤D具体为:
D1,基于步骤B中产生的布局候选项,将步骤C3中的区域级特征映射到布局候选项多边形中形成一元映射特征,基于室内墙面间的位置设计布局候选项空间约束关系,形成二元映射特征;
D2,将布局估计问题转化为步骤B中产生的场景布局候选项的最优选取问题,定义结构化回归问题模型,其目标函数为:
其中,y*表示最优的布局估计,f(x,y;ω)表示室内场景图像x和其布局候选项y之间的映射关系,ω表示权重向量,ω=ωo+ωb;F={左墙,右墙,前墙,天花板,地面},yα和yβ均表示布局候选项y中的多边形,表示一元特征的权重向量,ψo(x,yα)表示针对布局候选项多边形提取的区域级特征,表示二元特征的权重向量,ψb(yα,yβ)表示候选项多边形两两之间的位置关系的区域级特征;
D3,根据布局候选项与基准图像之间的关系,设计基于多边形面缺失、多边形质心位置和多边形像素误差和三方面的损失函数;
D4,根据特征映射关系和损失函数,采用结构化SVM的学习算法对结构化回归问题模型进行训练学习,求解权重参数,完成结构化回归问题模型的训练学习;
D5,将D4中完成训练学习的结构化回归问题模型,用测试图像进行测试。
作为本发明的进一步技术方案,步骤D3中的损失函数为:
Δ(yi,y)=Δt(yi,y')+Δc(yi,y')+Δp(yi,y')
Δt(yi,y')=∑k∈[1,5]δ(Fik,Fk)
Δc(yi,y')=∑k∈[1,5]||cik-ck||2
其中,y'表示基准布局,yi表示第i个布局候选项;Fk∈{F1,F2,F3,F4,F5}表示基准布局标注表示,F1表示地面,F2表示中墙,F3表示右墙,F4表示左墙,F5表示天花板;Fik∈{Fi1,Fi2,Fi3,Fi4,Fi5}是第i个布局候选项标注表示,1≤i≤I,I表示训练图像集中室内场景图像的数目,Fi1表示地面,Fi2表示中墙,Fi3表示右墙,Fi4表示左墙,Fi5表示天花板;Δt(yi,y')表示多边形面缺失误差和,以判断布局中是否有多边形缺失;δ(Fik,Fk)是激励函数,当基准图像多边形存在而候选项多边形不存在、或者基准图像多边形不存在而候选项多边形存在时激励函数置1,当候选项多边形和基准图像多边形同时存在或者同时不存在则激励函数置0;Δc(yi,y')表示多边形质心位置误差和,cik表示第i个布局候选项中第k个多边形区域面的质心,ck表示图像基准布局第k个多边形区域面的质心;Δp(yi,y')表示多边形像素误差和,以检测是否完整覆盖。
作为本发明的进一步技术方案,步骤D4具体为:
将目标函数转化为以下问题:
ωTψ(xi,yi)-ωTψ(xi,y')≥Δ(yi,y')-ξi,
其中,xi表示训练图像集中第i个室内场景图像,ξi是xi松弛变量;C是比例系数;权重向量ω=ωo+ωb;Y表示xi经过步骤A和B后得到的布局候选项集合,yi表示集合Y中的元素,y'表示基准标注布局,ψ(xi,yi)表示xi对应的布局候选项yi所提取的特征,ψ(xi,y')表示xi对应的基准标注布局y所提取的特征,Δ(yi,y')表示用于量化yi和y'两种布局之间的测度的损失函数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明基于消失点设计由粗到精估计布局候选项的框架,由消失点粗划分场景图像区域,利用全卷积网络产生的信息边缘图选取能量项概率最高区域,最后对该区域进行采样细化分,产生布局候选项;该方法能缩小布局候选项可能的区域范围并能提高候选项产生的精度,得到更好的估计结果;
(2)本发明在原有特征的基础上引入对空间方向有约束的法向量特征和与空间距离有关的深度特征,同时考虑候选项多边形间的空间位置关系,使得有更好的特征进行模型参数学习和模型推论以获取更佳的布局候选项。
附图说明
图1是本专利方法的流程示意图。
图2是信息边缘估计全卷积神经网络模型框架图。
图3多尺度卷积神经网络模型图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明公开了一种基于信息边缘由粗到精布局候选项生成和多模态异构特征融合的室内场景布局估计方法。首先,针对室内场景图像使用自适应阈值边缘检测算子提取场景直线段,根据直线段的方向聚类估计得到场景图像消失点,从水平和竖直方向消失点出发等角度间隔引出离散采样射线粗划分整个场景图像区域;然后,采用VGG-16全卷积神经网络得到室内场景图像信息边缘能量图,基于信息边缘图和图像粗划分区域从水平和竖直角度分别选取图中能量较高的区域,细采样所选区域产生布局候选项;接着,利用空间多尺度VGG-16卷积神经网络,得到场景图像表面的方向法向量和几何深度特征,结合场景图像结构底层的线组成员特征和语义属性的几何上下文特征,采用积分几何累加计算方法得到场景图像区域级的特征;最后,结合场景布局候选项多边形一元共生呈现与相应多边形区域之间二元约束关系,从候选项得分排序角度出发建模室内布局估计问题;采用结构化SVM算法学习模型参数;推理出得分最高的候选项即为室内场景布局估计。本发明逐步缩小候选项生成区域,并结合多种模态特征对布局候选项进行约束,提高了室内估计布局精度。
本发明利用信息边缘的多特征室内场景布局估计的框架,在实际应用过程当中,利用信息边缘从粗到细产生候选项,基于区域级多特征一二元关系进行布局估计,包括如下步骤:
步骤A、针对室内场景图像,用边缘检测算子提取边缘轮廓,筛选轮廓中的直线段并估计图像消失点,从消失点出发做采样射线粗划分场景图像区域。其中,边缘检测算子有Canny算子、Roberts算子、Sobel算子、Prewitt算子等,本实施例中采用Canny算子。
步骤A1、利用Canny算子边缘检测的方法对室内场景图像进行处理,输入场景图像通过高斯滤波器获取平滑效果,再对其进行一阶偏导的有限差分,计算出梯度的幅值和方向,仅仅得到全局的梯度并不足以确定边缘,通过保留局部梯度最大的点抑制非极大值来确定边缘,最后进行双阈值算法检测和连接边缘,以获取场景图像中的边缘直线段。为了获取消失点方向,本发明设计阈值只筛选出像素点长度大于30的直线段,这样每个图像只需要计算约100-200条直线段。
步骤A2、用Rother’s算法的投票策略,计算点和线段间角度的偏差得分。本发明中,定义直线段l与候选消失点p的关系如下,
其中,l表示线段,|l|表示线段长度,α是直线段l和消失点p与直线段中点连线的夹角。γ是鲁棒的阈值,在实验中设为γ=0.1。为了获取消失点方向,太短的直线段方向性不强易造成实验的复杂度,所以筛选出像素点长度大于30的直线段,这样每个场景图像只需要计算约100-200条直线段。
所有的候选点都是三个一组的消失点,检测到的直线段相交形成的交点。使用一个交替贪婪策略选择得票最高的点,然后去除得票最高点对应的消失线,在场景图像平面上,将剩下的相交点从场景图像中心向外延伸。消失点的位置误差越靠近场景图像的中心对盒布局的估计越重要,所以使用可变大小的变量。场景图像中的大部分线都会位于三个正交方向中的一个上面,所以上述操作大大减少了搜索空间的复杂性并且对室内场景的作用效果明显。
一旦最优消失点被确定,场景图像中所有检测到的直线段都能够对齐三个消失点中的一个,投给同一个消失点的线段称为线成员。通过消失点计算能选取空间直角坐标系xyz方向上的三个正交消失点vp1,vp2,vp3,其中vp1是横轴x方向消失点,vp2是纵轴y方向消失点,vp3是竖轴z方向消失点。
本实施例中,根据A1中获得的直线段进行消失点估计的方法,具体为:
1)将A1中获得的筛选后的直线段进行x、y、z方向上线段的划分,分别用于估计x、y、z方向上的消失点;
2)x方向的线段集合记为{lvi},1≤i≤n,n为x上的线段数目,pk为{lvi}中线段两两相交的形成第k个交点,1≤k≤K,K为{lvi}中线段两两相交的形成的交点数目,则第i个x方向线段lvi对pk的得分贡献为:
其中,α表示lvi与pk和lvi中点的连线之间的夹角,γ是设定阈值;
4)所有K个交点中得分最高的即为方向上的的消失点vp1;
5)再基于如2)至4)中相同的投票得分机制,分别计算y方向和z方向上的直线段,即可得到最终的y方向的消失点vp2与z方向的消失点vp3。
步骤A3、分别从消失点vp1和vp2出发,以vp3为参照,等间距做出成对射线划分场景图像区域,其中,消失点射线的采样频率可以调整。本实施例中,为了粗划分场景图像区域,采样频率N=10,即分别从x方向和y方向做十条采样射线。
步骤B、采用基于VGG-16的全卷积神经网络获取场景图像信息边缘图,结合粗划分场景图像区域,选取图中能量较高区域,并细采样该区域产生布局候选项。
步骤B1、针对输入图像,利用深度学习的基于VGG-16的全卷积神经网络框架,网络框架如图2所示,具体参数如表1所示,通过多个卷积层提取图像像素级的特征图,将最后一层的特征图用反卷积层进行上采样,以获取浓密的像素输出,产生信息边缘图和几何上下文标签图。
表1全卷积神经网络具体参数
全卷积网络(FCNs)在像素标注问题上有很好的表现,本发明受其启发,联合训练全卷积网络完成两个任务:产生信息边缘图和产生几何上下文标签图。
用Caffe学习VGG-16结构的全卷积网络,使用32像素预测步长的FCN(FCN-32)训练NYUDv2RGBD数据集中40类的室内语义分割任务。原始的网络有两个输入流,一个输入RGB图像,一个输入深度特征,本文舍弃深度输入层,使用剩下的RGB层初始化FCN网络。然后在微调网络的学习率基准为10-4并且高动量为0.99,新加入的最后一个卷积和反卷积层有一个更高的学习率设为10-3。通过共享FCN除反卷积层外的所有层来进行联合训练,在最后的反卷积层中,本发明产生对应各自类别输出结果的不同SoftMax概率图。该网络的总损失是两个交叉熵分类损失的总和:一个是信息边缘标签预测,一个是几何上下文标签预测。最终实验也证明联合的损失优化的确对信息边界的精准度有提高。
步骤B2、利用步骤B1获取的信息边缘图,结合粗划分场景图像区域,选取合适的能量项最高区域。
信息边缘图中边界信息具有较高能量,也反映出室内场景图像空间布局的信息。本发明以信息边缘信息为先验条件,在消失射线划分场景图像区域后,分别计算步骤A中以vp1划分和以vp2划分的区域中各个区域所含高能项的数量。在信息边缘图中,每个像素点都有一个数值,表示该点能量项的大小,能量项数值区间在[0,1]之间,本发明中设置能量项>0.75的像素点为高能项。比较每个区域中所包含像素点能量项数值大小,统计各区域中高能项像素点的数值。最后,以vp3作为参考点,将粗划分的场景图像区域划分类成上、下、左、右四个方向类型,比较每个方向类型中区域高能项数量多少,在每个方向类型中都选取一个高能量项最多区域。
步骤B3、分别计算步骤B2中选取的四个区域上两条射线的夹角角度θ,夹角角度根据细采样频率M进行等间距划分,分别从消失点vp1和vp2出发以角度θ/M再次做出采样射线,以细分概率较高的区域,其中,细采样频率可以根据需要选取。四个区域都进行细采样后,新射线的交点会形成布局估计候选项的中墙角点,消失点vp3和四个角点的连线与场景图像四周边框相交,以产生布局候选项。
步骤C、提取场景图像的线组成员、几何上下文、深度、法向量特征,采用积分几何累加计算方法得到场景图像区域级的特征。
步骤C1、线组成员特征和几何上下文特征即为分别由步骤A1中获得的直线段信息和步骤B1获得的几何上下文信息。
线组成员特征是根据检测场景图像直线段时获取的线组成特征,其中包含颜色、文理、透视线索等线性特征。对于空间布局估计中的任意一个多边形Fk,其无权重的线组成员特征fl定义如下:
其中,Lk表示检测出的线段中位于多边形Fk内部的所有线段的集合,Ck表示检测出的线段中可以归属为构成多边性Fk的所涉及到两个消失点的所有线段的集合。需要注意的是公式中的|l|表示线段l的长度。
几何上下文特征由步骤B1产生信息边缘图的全卷积网络双输出中另一个输出结果得到。
步骤C2、设计了一个单一多尺度卷积网络结构,在像素级别获取场景图像的深度特征和表面法向量特征;
多尺度卷积网络结构使用序列化的尺度逐步细化预测,从输入场景图像中直接产生像素级特征图,并不使用任何超像素或低层次的分割来捕获场景图像的细节,且使用一系列卷积网络可以对齐到许多场景图像的细节大大提高分辨率。
基于VGG-16的多尺度卷积网络结构模型比较深,有较多的卷积层,同时具有三个尺度模型如图3所示,具体参数如表2所示,所以最终的输出分辨率较高能提高到输入的一半。第一个尺度是完整图像视角尺度,其预测出一个粗燥的但是对整个图像区域具有空间变化的特征,该尺度中对整幅图像使用了两个全连接层。第二个尺度是预测尺度,在这个尺度中进行中等分辨率的预测,结合一个从较窄图像视角考虑更详细信息以及上一层尺度提供的完整图像视角信息,通过卷积和池化获取特征中等分辨率的映射。第三个尺度是高分辨率尺度,该尺度结合原始图像输出和尺度2的特征映射,使用更精细的步数,能分辨出图像较多细节,得到高分辨率的结果输出。该模型从尺度1和尺度2并不传递输出预测结果而是传递多通道特征图,这样做时,可以能够联合输入图像和前两个尺度的网络一起训练,这样简化训练过程并且取得性能增益。
表2多尺度卷积神经具体网络参数
对于深度预测和法向量预测只需要使用不同的损失函数就可以输出不同的目标数据,深度预测和法向量预测的损失函数如下:
在深度预测的损失函数中,D和D*分别表示预测和基准深度图,d=D-D*表示两者的差值,i表示场景图像中某一像素点,n表示场景图像中所有像素点的个数之和。和分别是水平和竖直方向上像素点之间深度的变化值。在法向量预测的损失函数中,N和N*分别表示预测和基准法向量图。
步骤D、根据布局候选项到特征的一元和二元映射关系,设计布局估计的结构化回归模型,引入结构化学习算法,能量函数最小的即为室内场景布局估计。
步骤D1、基于多个布局候选项中选取一个最后作为布局估计的情况进行问题形式化,设计成候选项得分排序问题。
产生多个室内场景布局候选项后,每个输入场景图像最多可分成五个多边形组成的图像,需对其和真实空间布局对比,获取误差得分进行排序,最优的一个即为布局估计,本文将其定义成最大边界结构化回归问题。给定一个输入场景图像,最优的布局估计表示为y*,则
其中,y*表示最优的布局估计,f(x,y;ω)表示室内场景图像x和其布局候选项y之间的映射关系,ω表示权重向量,通过在给定的训练图像集(室内场景图像与其对应基准标注布局)上进行训练学习,求得上述映射关系f。
步骤D2、将步骤C3中的区域级特征映射到布局候选项多边形中形成一元映射特征,基于室内墙面间的位置设计布局候选项空间约束关系,形成二元映射特征。
室内场景图像空间中杂物对布局估计的干扰比较大,为了获取更好的布局估计,本文利用多特征对空间布局进行一元关系和二元关系的约束。特征映射关系表示为:
其中,α,β∈F={左墙,右墙,前墙,天花板,地面},x是输入图像,yα和yβ表示候选项中某个多边形。表示一元特征的权重向量,ψo(x,yα)表示针对候选多边形提取的区域级特征。表示二元特征的权重向量,ψb(yα,yβ)表示候选项多边形两两之间的位置关系特征;ω=ωo+ωb。
第一部分表示一元映射关系,本发明中采用多特征,其特征可以细分为四部分:
式中,α∈F={左墙,右墙,前墙,天花板,地面},x表示输入图像,y表示布局候选项,yα表示布局候选项中某一个面。ψLM(x,y)表示线组成员特征,通过直线段检测获取了线段的梯度特征、色彩特征、hog特征等;ψGC(x,y)表示全卷积神经网络获得的几何上下文信息;ψN(x,y)是通过三维几何理解的方式获取的法向量特征约束多边形的方向;ψD(x,y)是深度特征,数据集没有提供深度特征,通过步骤C2获得深度特征。
第二部分表示候选项多边形对应室内三维空间墙面间的位置关系,利用室内墙面之间的位置关系约束多边形间可能的存在。其位置关系如表3所示,其中,1表示A不可能高于B,2表示A不可能低于B,3表示A不可能在B右边,4表示A不可能在B左边,5表示A不可能在B前面,6表示A不可能在B后面。
表3多边形位置关系表示
A-B | 天花板 | 地面 | 左墙 | 前墙 | 右墙 |
天花板 | 2 | 2,4 | 2,5 | 2,3 | |
地面 | 1 | 1,4 | 1,5 | 1,3 | |
左墙 | 1,3 | 2,3 | 3,5 | 3 | |
前墙 | 1,6 | 2,6 | 4,6 | 3,6 | |
右墙 | 1,4 | 2,4 | 4 | 4,5 |
表中,A表示第一列的区域名称,B表示第一行的区域名称,表中的数值1-6表示A与B的位置关系,比如1可以表示成地面不可能高于天花板。通过这种约束关系,可以理清多边形之间在三维空间上的位置关系,比如一个多边形总是低于其他多边形区域,则说明该多边形为地面的可以能性最高,若检测到一个多边形区域在某多边形的左侧,则说明该多边形肯定不会是右墙,就不需要和基准图像中右墙的特征向量比较。将三维的几何关系通过二维图像表示,本文利用多边形区域中点的坐标比较其区域高低和左右关系,再根据区域中心点深度值的大小判断区域的前后关系。假设区域q的中心坐标为(xq,yq),区域p中心坐标为(xp,yp),若xq>xp,yq>yp说明区域b不可能在区域q的右侧,也不可能高于区域q。即满足条件1和3。
步骤D3、根据布局候选项与准基图像之间的关系,设计基于多边形面缺失、多边形质心位置和多边形像素误差和三方面的损失函数,具体公式表示如下:
Δ(yi,y)=Δt(yi,y')+Δc(yi,y')+Δp(yi,y')
Δt(yi,y')=∑k∈[1,5]δ(Fik,Fk)
Δc(yi,y')=∑k∈[1,5]||cik-ck||2
公式中,y'是基准布局,yi是第i个布局候选项;Fk∈{F1,F2,F3,F4,F5}是基准布局标注表示,其中F1表示地面,F2表示中墙,F3表示右墙,F4表示左墙,F5表示天花板;Fik∈{Fi1,Fi2,Fi3,Fi4,Fi5}是布局候选项标注表示,i表示第i个候选项,1≤i≤I,I表示训练图像集中室内场景图像的数目。其中Fi1表示地面,Fi2表示中墙,Fi3表示右墙,Fi4表示左墙,Fi5表示天花板。Δt(yi,y')表示多边形面缺失误差和,判断布局中是否有多边形缺失,δ(Fik,Fk)是激励函数,当基准图像多边形存在而候选项多边形不存在,或者基准图像多边形不存在而候选项多边形存在,这两种情况下激励函数置1;若候选项多边形和基准图像多边形同时存在或者同时不存在,在激励函数一直是0。Δc(yi,y')表示多边形质心位置误差和,测量候选项多边形区域面的质心cik和基准图像多边形区域面的质心ck的移位差,通过计算区域面所有像素点坐标的平均值就可以得到质心,质心的位移差则通过计算两个像素点的距离计算,若基准图像和候选项多边形都缺失则位移差为0。Δp(yi,y')表示多边形像素误差和,来检测是否完整覆盖,若候选多边形区域和基准多边形区域完全覆盖,则损失函数为0,说明这两个区域完全重合;若损失函数有值,损失函数的值越大,说明两个区域覆盖度越低,很有可能不是同一个区域。
步骤D4、根据特征映射关系和损失函数,采用结构化SVM(Suport VectorMachine,SVM)的学习算法进行参数学习。
将一幅图不同的候选项进行得分排序,以得到最好的一个候选项与ground truth的布局对应。这是一个结构化回归问题,所以用结构化SVM这样的学习框架来定义:
ωTψ(xi,yi)-ωTψ(xi,y')≥Δ(yi,y')-ξi,
其中,xi表示训练图像集中第i个室内场景图像,1≤i≤I,I表示训练图像集中室内场景图像的数目,ξi是xi松弛变量;C是比例系数,本发明中C=1。ω是权重向量ω=ωo+ωb。Y表示布局候选项集合,yi表示集合Y中的元素,y'表示基准标注布局,ψ(xi,yi)表示xi对应的布局候选项yi所提取的特征,ψ(xi,y')表示xi对应的基准标注布局y所提取的特征,Δ(yi,y')表示用于量化yi和y’两种布局之间的测度的损失函数。
步骤D5、将学习到的参数带入到步骤D1的推理模型中,对测试图像进行推理测试。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,包括以下具体步骤:
步骤A,针对室内场景图像,根据检测出的边缘直线段进行消失点估计,从消失点出发以设定第一采样频率对场景图像区域进行粗划分;
步骤B,针对室内场景图像,采用卷积神经网络获取场景图像的信息边缘图,选取步骤1中粗划分后场景图像区域中能量高出设定阈值的区域,并对该区域进行以设定第二采样频率进行细划分,产生布局候选项;
步骤C,针对室内场景图像,提取其线组成员、几何上下文、深度、法向量特征,并采用积分几何累加计算方法对四个特征进行累加,得到场景图像的区域级特征;
步骤D,根据布局候选项到特征的一元和二元映射关系,设计布局估计的结构化回归模型,引入结构化学习算法对结构化回归模型进行训练学习,通过训练学习完成的模型进行室内场景布局估计。
2.根据权利要求1所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤A具体为:
A1,针对室内场景图像,利用边缘检测算子对其进行边缘检测以获取场景图像中的边缘轮廓,并设定长度阈值筛选出边缘轮廓中的直线段;
A2,采用Rother’s算法的投票策略,根据A1中获得的直线段进行消失点估计,得到空间直角坐标系中x、y、z方向上的三个正交消失点;
A3,分别从x、y方向上的消失点出发,以z方向上的消失点为参照,等角度间隔、以设定第一采样频率做出射线对场景图像区域进行粗划分。
3.根据权利要求2所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤A1中边缘检测算子为Canny算子或Roberts算子或Sobel算子或Prewitt算子。
4.根据权利要求2所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤A2中采用Rother’s算法的投票策略,根据A1中获得的直线段进行消失点估计,具体为:
1)将A1中获得的筛选后的直线段进行x、y、z方向上线段的划分,分别用于估计x、y、z方向上的消失点;
2)x方向的线段集合记为{lvi},1≤i≤n,n为x上的线段数目,pk为{lvi}中线段两两相交的形成第k个交点,1≤k≤K,K为{lvi}中线段两两相交的形成的交点数目,则第i个x方向线段lvi对pk的得分贡献为:
其中,α表示lvi与pk和lvi中点的连线之间的夹角,γ是设定阈值;
4)所有K个交点中得分最高的即为x方向上的消失点vp1;
5)基于如2)至4)中相同的投票得分机制,分别获得y方向上的消失点vp2与z方向上的消失点vp3。
5.根据权利要求2所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤B具体为:
B1,针对室内场景图像,利用全卷积神经网络、通过多个卷积层提取图像像素级的特征图,并将最后一层的特征图用反卷积层进行上采样,产生信息边缘图和几何上下文标签图;
B2,分别统计步骤A中粗划分后的每个场景图像区域中的能量项高于设定能量阈值的数量;
B3,以z方向上的消失点作为参考点,在其上、下、左、右四个方向各选取一个能量项数量最高的区域;
B4,分别计算B3中选取的四个区域上两条射线的夹角角度,并以设定第二采样频率作出细采样射线对每个夹角进行等角度间隔划分,各细采样射线间的交点形成布局候选项的中墙角点,产生布局候选项。
6.根据权利要求5所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤B1中采用Caffe深度学习基于VGG-16的全卷积神经网络,产生信息边缘图和几何上下文标签图。
7.根据权利要求5所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤C具体为:
C1,线组成员特征和几何上下文特征即为分别由步骤A1中获得的直线段信息和步骤B1获得的几何上下文信息;
C2,基于单一多尺度卷积网络结构,在像素级别获取室内场景图像的深度特征和表面法向量特征;
C3,采用积分几何累加计算方法,累加计算C1和C2中获取的所有特征,得到场景图像的区域级特征。
8.根据权利要求7所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤D具体为:
D1,基于步骤B中产生的布局候选项,将步骤C3中的区域级特征映射到布局候选项多边形中形成一元映射特征,基于室内墙面间的位置设计布局候选项空间约束关系,形成二元映射特征;
D2,将布局估计问题转化为步骤B中产生的场景布局候选项的最优选取问题,定义结构化回归问题模型,其目标函数为:
其中,y*表示最优的布局估计,f(x,y;ω)表示室内场景图像x和其布局候选项y之间的映射关系,ω表示权重向量,ω=ωo+ωb;F={左墙,右墙,前墙,天花板,地面},yα和yβ均表示布局候选项y中的多边形,表示一元特征的权重向量,ψo(x,yα)表示针对布局候选项多边形提取的区域级特征,表示二元特征的权重向量,ψb(yα,yβ)表示候选项多边形两两之间的位置关系的区域级特征;
D3,根据布局候选项与基准图像之间的关系,设计基于多边形面缺失、多边形质心位置和多边形像素误差和三方面的损失函数;
D4,根据特征映射关系和损失函数,采用结构化SVM的学习算法对结构化回归问题模型进行训练学习,求解权重参数,完成结构化回归问题模型的训练学习;
D5,将D4中完成训练学习的结构化回归问题模型,用测试图像进行测试。
9.根据权利要求8所述的一种基于信息边缘和多模态特征的室内场景布局估计方法,其特征在于,步骤D3中的损失函数为:
Δ(yi,y)=Δt(yi,y')+Δc(yi,y')+Δp(yi,y')
Δt(yi,y')=∑k∈[1,5]δ(Fik,Fk)
Δc(yi,y')=∑k∈[1,5]||cik-ck||2
其中,y'表示基准布局,yi表示第i个布局候选项;Fk∈{F1,F2,F3,F4,F5}表示基准布局标注表示,F1表示地面,F2表示中墙,F3表示右墙,F4表示左墙,F5表示天花板;Fik∈{Fi1,Fi2,Fi3,Fi4,Fi5}是第i个布局候选项标注表示,1≤i≤I,I表示训练图像集中室内场景图像的数目,Fi1表示地面,Fi2表示中墙,Fi3表示右墙,Fi4表示左墙,Fi5表示天花板;Δt(yi,y')表示多边形面缺失误差和,以判断布局中是否有多边形缺失;δ(Fik,Fk)是激励函数,当基准图像多边形存在而候选项多边形不存在、或者基准图像多边形不存在而候选项多边形存在时激励函数置1,当候选项多边形和基准图像多边形同时存在或者同时不存在则激励函数置0;Δc(yi,y')表示多边形质心位置误差和,cik表示第i个布局候选项中第k个多边形区域面的质心,ck表示图像基准布局第k个多边形区域面的质心;Δp(yi,y')表示多边形像素误差和,以检测是否完整覆盖。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710347401.8A CN107292234B (zh) | 2017-05-17 | 2017-05-17 | 一种基于信息边缘和多模态特征的室内场景布局估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710347401.8A CN107292234B (zh) | 2017-05-17 | 2017-05-17 | 一种基于信息边缘和多模态特征的室内场景布局估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107292234A CN107292234A (zh) | 2017-10-24 |
CN107292234B true CN107292234B (zh) | 2020-06-30 |
Family
ID=60094041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710347401.8A Active CN107292234B (zh) | 2017-05-17 | 2017-05-17 | 一种基于信息边缘和多模态特征的室内场景布局估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107292234B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062437A (zh) * | 2017-12-06 | 2018-05-22 | 北京居然设计家家居连锁集团有限公司 | 智能生成房间设计方案的方法 |
CN107977664B (zh) * | 2017-12-08 | 2019-12-31 | 重庆大学 | 一种基于单幅图像的道路消失点检测方法 |
CN108257139B (zh) * | 2018-02-26 | 2020-09-08 | 中国科学院大学 | 基于深度学习的rgb-d三维物体检测方法 |
CN109544700A (zh) | 2018-10-12 | 2019-03-29 | 深圳大学 | 基于神经网络的点云数据的处理方法、装置和设备 |
CN111179337B (zh) * | 2018-10-24 | 2024-02-02 | 中国科学院自动化研究所 | 空间直线朝向测量方法、装置、计算机设备和存储介质 |
CN109727238A (zh) * | 2018-12-27 | 2019-05-07 | 贵阳朗玛信息技术股份有限公司 | X光胸片的识别方法及装置 |
US10839606B2 (en) * | 2018-12-28 | 2020-11-17 | National Tsing Hua University | Indoor scene structural estimation system and estimation method thereof based on deep learning network |
CN110599587A (zh) * | 2019-08-08 | 2019-12-20 | 南京末梢信息技术有限公司 | 一种基于单张图像的3d场景重构技术 |
CN110706314B (zh) * | 2019-09-30 | 2023-04-07 | 广东博智林机器人有限公司 | 元素布局方法、装置、电子设备及可读存储介质 |
CN110910437B (zh) * | 2019-11-07 | 2021-11-05 | 大连理工大学 | 一种复杂室内场景的深度预测方法 |
CN113673275B (zh) * | 2020-05-13 | 2024-02-20 | 北京达佳互联信息技术有限公司 | 一种室内场景布局估计方法、装置、电子设备及存储介质 |
CN111611919B (zh) * | 2020-05-20 | 2022-08-16 | 西安交通大学苏州研究院 | 一种基于结构化学习的道路场景布局分析方法 |
CN112926543A (zh) * | 2021-04-09 | 2021-06-08 | 商汤集团有限公司 | 图像生成、三维模型生成方法、装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101167085A (zh) * | 2005-04-18 | 2008-04-23 | 英特尔公司 | 通过跟踪行人从视频序列进行三维道路布局估计 |
CN101714262A (zh) * | 2009-12-10 | 2010-05-26 | 北京大学 | 单幅图像的三维场景重建方法 |
CN104077611A (zh) * | 2014-07-14 | 2014-10-01 | 金陵科技学院 | 类地重力场环境下室内场景单目视觉空间识别方法 |
CN106204572A (zh) * | 2016-07-06 | 2016-12-07 | 合肥工业大学 | 基于场景深度映射的道路目标深度估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9595134B2 (en) * | 2013-05-11 | 2017-03-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for reconstructing 3D scenes from 2D images |
-
2017
- 2017-05-17 CN CN201710347401.8A patent/CN107292234B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101167085A (zh) * | 2005-04-18 | 2008-04-23 | 英特尔公司 | 通过跟踪行人从视频序列进行三维道路布局估计 |
CN101714262A (zh) * | 2009-12-10 | 2010-05-26 | 北京大学 | 单幅图像的三维场景重建方法 |
CN104077611A (zh) * | 2014-07-14 | 2014-10-01 | 金陵科技学院 | 类地重力场环境下室内场景单目视觉空间识别方法 |
CN106204572A (zh) * | 2016-07-06 | 2016-12-07 | 合肥工业大学 | 基于场景深度映射的道路目标深度估计方法 |
Non-Patent Citations (1)
Title |
---|
结合场景结构和条件随机场的道路检测;邓燕子 等;《华中科技大学学报(自然科学版)》;20160930;第44卷(第9期);第20-25页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107292234A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107292234B (zh) | 一种基于信息边缘和多模态特征的室内场景布局估计方法 | |
Ochmann et al. | Automatic reconstruction of fully volumetric 3D building models from oriented point clouds | |
CN106709568B (zh) | 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法 | |
CN107622244B (zh) | 一种基于深度图的室内场景精细化解析方法 | |
CN100407798C (zh) | 三维几何建模系统和方法 | |
Suveg et al. | Reconstruction of 3D building models from aerial images and maps | |
Xu et al. | Reconstruction of scaffolds from a photogrammetric point cloud of construction sites using a novel 3D local feature descriptor | |
US20160189419A1 (en) | Systems and methods for generating data indicative of a three-dimensional representation of a scene | |
WO2017132636A1 (en) | Systems and methods for extracting information about objects from scene information | |
CN102509105B (zh) | 一种基于贝叶斯推理的图像场景分层处理方法 | |
Rusu et al. | Perception for mobile manipulation and grasping using active stereo | |
CN111046868B (zh) | 基于矩阵低秩稀疏分解的目标显著性检测方法 | |
Turner et al. | Watertight as-built architectural floor plans generated from laser range data | |
CN106780568B (zh) | 一种基于压缩不规则分块lbp的视频目标跟踪方法 | |
Yogeswaran et al. | 3d surface analysis for automated detection of deformations on automotive body panels | |
Kaushik et al. | Accelerated patch-based planar clustering of noisy range images in indoor environments for robot mapping | |
Delmerico et al. | Building facade detection, segmentation, and parameter estimation for mobile robot stereo vision | |
Wang et al. | Multidimensional particle swarm optimization-based unsupervised planar segmentation algorithm of unorganized point clouds | |
Günen et al. | Comparison of point cloud filtering methods with data acquired by photogrammetric method and RGB-D sensors | |
Zhang et al. | 3D reconstruction of weak feature indoor scenes based on hector SLAM and floorplan generation | |
Zhang et al. | Three dimensional object segmentation based on spatial adaptive projection for solid waste | |
Frontoni | Vision based mobile robotics: mobile robot localization using vision sensors and active probabilistic approaches | |
Asif et al. | Model-free segmentation and grasp selection of unknown stacked objects | |
Chang et al. | Using line consistency to estimate 3D indoor Manhattan scene layout from a single image | |
Huang et al. | Semantic labeling and refinement of LiDAR point clouds using deep neural network in urban areas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230322 Address after: No. 405, Jiande Road, Zhangpu Town, Kunshan City, Suzhou City, Jiangsu Province Patentee after: Suzhou Moshi Intelligent Technology Co.,Ltd. Address before: 210003, 66 new model street, Gulou District, Jiangsu, Nanjing Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS |