CN107292234B

CN107292234B - 一种基于信息边缘和多模态特征的室内场景布局估计方法

Info

Publication number: CN107292234B
Application number: CN201710347401.8A
Authority: CN
Inventors: 刘天亮; 陆泮宇; 戴修斌; 刘峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Suzhou Moshi Intelligent Technology Co ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2020-06-30
Anticipated expiration: 2037-05-17
Also published as: CN107292234A

Abstract

本发明公开了一种基于信息边缘和多模态特征的室内场景布局估计方法，针对图像用边缘检测提取直线段由此估计出图像消失点，从消失点出发做采样射线粗划分图像区域；用全卷积神经网络（FCNs）获取信息边缘图，选取图中能量较高区域并细采样产生布局候选项；基于积分几何提取图像的线段、几何上下文、深度、法向量特征；考虑布局候选项与区域级特征一元和二元的映射关系，设计布局估计的结构化回归模型，引入结构化学习算法，能量函数最小的即为室内场景布局估计。本发明逐步缩小候选项生成区域，并结合多种模态特征对布局候选项进行约束，提高了室内估计布局精度。

Description

一种基于信息边缘和多模态特征的室内场景布局估计方法

技术领域

本发明涉及一种基于信息边缘和多模态特征的室内场景布局估计方法，特别涉及一种基于信息边缘由粗到精布局候选项生成和多模态异构特征融合的室内场景布局估计方法。

背景技术

图像场景理解是计算机视觉研究中的一项必要工作，笼统的来说，场景理解就是一个对传感器捕捉的场景、通过一系列视觉信息和知识信息的处理分析、最终得到图像语义解释的过程。图像场景理解其实是一种相对宽泛的概念，它包含了计算机视觉里的诸多研究范围和应用领域，诸如图像搜索引擎、自动导航、计算机摄影、图像视觉、人机交互、虚拟现实以及其他应用上的需求。图像场景理解有着广泛的应用前景和巨大的经济商业价值，能更好的提高人们的生活质量。在这些需求的推动下，基于视觉的图像场景理解能够有效地帮助和提高计算机对于复杂多变室内外场景的分析和认知能力，是计算机视觉领域研究的最终愿景。

现实世界中，室内场景作为人类的主要生活场所，与室外场景相比具有更重要的地位。室内场景布局估计是图像场景理解的重要研究内容，是全局场景理解的分支。基本目标是通过给定的图像把握其所示场景空间中的几何结构。比如在智能家居中设计移动机器人，机器人通过摄像头看到的画面是室内二维图像，如何通过这个场景图像判断室内各个物体的位置和尺寸？如何判断机器人自由安全的行走路径？如何分析机器人工作的内容范围？这些都需要其能理解未知环境空间的结构化几何信息。本文室内场景的布局估计是对这方面的研究，可以说室内场景布局估计是计算机视觉领域的基础研究，为更高层级的研究和应用打下了坚实的基础，已成为计算机视觉领域的研究热点。

在透视投影理论下，室内场景布局估计问题的方法主要在模型设计和特征选取两方面有不同。模型建立方面，文献[Hoiem D,Efros A A,Hebert M."Recovering surfacelayout from an image,"In International Journal of Computer Vision,75(1):151-172,2007]通过消失点产生投影射线，以投影射线夹角的角度形式化此类问题，整个模型主要有三个步骤：提取蕴含空间布局有用视觉线索的特征(如消失点、特征直线以及三维点云等)；产生场景空间盒布局候选集；选取最好的空间结构化布局。文献[Wang H,Gould S,Roller D."Discriminative learning with latent variables for cluttered indoorscene understanding,"In Communications of the ACM,56(4):92-99,2013.]中加入隐变量的概念计算杂乱，将室内空间中的家居和装饰品等杂乱都定义为隐变量，文献[JianZhang；Chen Kan；Schwing,A.G.；Urtasun,R.,"Estimating the 3D Layout of IndoorScenes and Its Clutter from Depth Sensors,"In IEEE International Conferenceon,vol.,no.,pp.1273-1280,1-8Dec.2013.]将室内场景中的布局与杂物放在同一个模型框架下进行联合预测，文献[Chao Y W,Choi W,Pantofaru C,et al.“Layout Estimationof Highly Cluttered Indoor Scenes using Geometric and Semantic Cues,”InInternational Conference on Image Analysis and Processing:489-499,2013.]利用空间中人的视角和物体的三维几何关系来约束消失点。

传统的特征主要分为线结构特征和区域特征，比如消失点、消失线和边界检测特征都是线结构特征；外观、纹理、几何上下文和方向图等都是基于像素或者像素块的区域特征。文献Liu,F.,et al."Learning Depth from Single Monocular Images Using DeepConvolutional Neural Fields,"In IEEE Transactions on Pattern Analysis&MachineIntelligence38.10:1-1,2015]引入了深度特征；文献[Dollar,P.；Zitnick,C.L.,"Structured Forests for Fast Edge Detection,"In IEEE International Conferenceon,vol.,no.,pp.1841-1848,1-8Dec.2013.]提出了结构化森林的方法提取边界线结构特征，文献[Mallya A,Lazebnik S.Learning Informative Edge Maps for Indoor SceneLayout Prediction.International Conference on Computer Vision.2015:936-944.]提出的FCN结构模型将边缘线特征通过学习，得出信息边缘图用于生成布局检测的特征。

发明内容

针对上述方法难于弱化图像中家居等生活用品对候选项的干扰及未充分利用多特征和特征基元间二元关系问题，本发明提供一种基于信息边缘和多模态特征的室内场景布局估计方法，利用信息边缘由粗到精生成候选项并基于区域多特征推论布局估计的分步室内场景布局估计框架。本发明针对图像用边缘检测提取直线段由此估计出图像消失点，从消失点出发做采样射线粗划分图像区域；用全卷积神经网络(FCNs)获取信息边缘图，选取图中能量较高区域并细采样产生布局候选项；基于积分几何提取图像的线段、几何上下文、深度、法向量特征；考虑布局候选项与区域级特征一元和二元的映射关系，设计布局估计的结构化回归模型，引入结构化学习算法，能量函数最小的即为室内场景布局估计。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于信息边缘和多模态特征的室内场景布局估计方法，包括以下具体步骤：

步骤A，针对室内场景图像，根据检测出的边缘直线段进行消失点估计，从消失点出发以设定第一采样频率对场景图像区域进行粗划分；

步骤B，针对室内场景图像，采用卷积神经网络获取场景图像的信息边缘图，选取步骤1中粗划分后场景图像区域中能量高出设定阈值的区域，并对该区域进行以设定第二采样频率进行细划分，产生布局候选项；

步骤C，针对室内场景图像，提取其线组成员、几何上下文、深度、法向量特征，并采用积分几何累加计算方法对四个特征进行累加，得到场景图像的区域级特征；

步骤D，根据布局候选项到特征的一元和二元映射关系，设计布局估计的结构化回归模型，引入结构化学习算法对结构化回归模型进行训练学习，通过训练学习完成的模型进行室内场景布局估计。

作为本发明的进一步技术方案，A1，针对室内场景图像，利用边缘检测算子对其进行边缘检测以获取场景图像中的边缘轮廓，并设定长度阈值筛选出边缘轮廓中的直线段；

A2，采用Rother’s算法的投票策略，根据A1中获得的直线段进行消失点估计，得到空间直角坐标系中x、y、z方向上的三个正交消失点；

A3，分别从x、y方向上的消失点出发，以z方向上的消失点为参照，等角度间隔、以设定第一采样频率做出射线对场景图像区域进行粗划分。

作为本发明的进一步技术方案，步骤A1中边缘检测算子为Canny算子或Roberts算子或Sobel算子或Prewitt算子。

作为本发明的进一步技术方案，步骤A2中采用Rother’s算法的投票策略，根据A1中获得的直线段进行消失点估计，具体为：

1)将A1中获得的筛选后的直线段进行x、y、z方向上线段的划分，分别用于估计x、y、z方向上的消失点；

2)x方向的线段集合记为{l_vi}，1≤i≤n，n为x上的线段数目，p_k为{l_vi}中线段两两相交的形成第k个交点，1≤k≤K，K为{l_vi}中线段两两相交的形成的交点数目，则第i个x方向线段l_vi对p_k的得分贡献为：

其中，α表示l_vi与p_k和l_vi中点的连线之间的夹角，γ是设定阈值；

3)将所有x方向线段对p_k的得分贡献进行求和，得到p_k的得分

4)所有K个交点中得分最高的即为x方向上的消失点vp₁；

5)基于如2)至4)中相同的投票得分机制，分别获得y方向上的消失点vp₂与z方向上的消失点vp₃。

作为本发明的进一步技术方案，步骤B具体为：

B1，针对室内场景图像，利用全卷积神经网络、通过多个卷积层提取图像像素级的特征图，并将最后一层的特征图用反卷积层进行上采样，产生信息边缘图和几何上下文标签图；

B2，分别统计步骤A中粗划分后的每个场景图像区域中的能量项高于设定能量阈值的数量；

B3，以z方向上的消失点作为参考点，在其上、下、左、右四个方向各选取一个能量项数量最高的区域；

B4，分别计算B3中选取的四个区域上两条射线的夹角角度，并以设定第二采样频率作出细采样射线对每个夹角进行等角度间隔划分，各细采样射线间的交点形成布局候选项的中墙角点，产生布局候选项。

作为本发明的进一步技术方案，步骤B1中采用Caffe深度学习基于VGG-16的全卷积神经网络，产生信息边缘图和几何上下文标签图。

作为本发明的进一步技术方案，步骤C具体为：

C1，线组成员特征和几何上下文特征即为分别由步骤A1中获得的直线段信息和步骤B1获得的几何上下文信息；

C2，基于单一多尺度卷积网络结构，在像素级别获取室内场景图像的深度特征和表面法向量特征；

C3，采用积分几何累加计算方法，累加计算C1和C2中获取的所有特征，得到场景图像的区域级特征。

作为本发明的进一步技术方案，步骤D具体为：

D1，基于步骤B中产生的布局候选项，将步骤C3中的区域级特征映射到布局候选项多边形中形成一元映射特征，基于室内墙面间的位置设计布局候选项空间约束关系，形成二元映射特征；

D2，将布局估计问题转化为步骤B中产生的场景布局候选项的最优选取问题，定义结构化回归问题模型，其目标函数为：

其中，y^*表示最优的布局估计，f(x,y；ω)表示室内场景图像x和其布局候选项y之间的映射关系，ω表示权重向量，ω＝ω_o+ω_b；

F＝{左墙,右墙,前墙,天花板,地面}，y_α和y_β均表示布局候选项y中的多边形，

表示一元特征的权重向量，ψ_o(x,y_α)表示针对布局候选项多边形提取的区域级特征，

表示二元特征的权重向量，ψ_b(y_α,y_β)表示候选项多边形两两之间的位置关系的区域级特征；

D3，根据布局候选项与基准图像之间的关系，设计基于多边形面缺失、多边形质心位置和多边形像素误差和三方面的损失函数；

D4，根据特征映射关系和损失函数，采用结构化SVM的学习算法对结构化回归问题模型进行训练学习，求解权重参数，完成结构化回归问题模型的训练学习；

D5，将D4中完成训练学习的结构化回归问题模型，用测试图像进行测试。

作为本发明的进一步技术方案，步骤D3中的损失函数为：

Δ(y_i,y)＝Δ_t(y_i,y')+Δ_c(y_i,y')+Δ_p(y_i,y')

Δ_t(y_i,y')＝∑_k∈[1,5]δ(F_ik,F_k)

Δ_c(y_i,y')＝∑_k∈[1,5]||c_ik-c_k||²

其中，y'表示基准布局，y_i表示第i个布局候选项；F_k∈{F₁,F₂,F₃,F₄,F₅}表示基准布局标注表示，F₁表示地面，F₂表示中墙，F₃表示右墙，F₄表示左墙，F₅表示天花板；F_ik∈{F_i1,F_i2,F_i3,F_i4,F_i5}是第i个布局候选项标注表示，1≤i≤I，I表示训练图像集中室内场景图像的数目，F_i1表示地面，F_i2表示中墙，F_i3表示右墙，F_i4表示左墙，F_i5表示天花板；Δ_t(y_i,y')表示多边形面缺失误差和，以判断布局中是否有多边形缺失；δ(F_ik,F_k)是激励函数，当基准图像多边形存在而候选项多边形不存在、或者基准图像多边形不存在而候选项多边形存在时激励函数置1，当候选项多边形和基准图像多边形同时存在或者同时不存在则激励函数置0；Δ_c(y_i,y')表示多边形质心位置误差和，c_ik表示第i个布局候选项中第k个多边形区域面的质心，c_k表示图像基准布局第k个多边形区域面的质心；Δ_p(y_i,y')表示多边形像素误差和，以检测是否完整覆盖。

作为本发明的进一步技术方案，步骤D4具体为：

将目标函数转化为以下问题：

ω^Tψ(x_i,y_i)-ω^Tψ(x_i,y')≥Δ(y_i,y')-ξ_i,

其中，x_i表示训练图像集中第i个室内场景图像，ξ_i是x_i松弛变量；C是比例系数；权重向量ω＝ω_o+ω_b；Y表示x_i经过步骤A和B后得到的布局候选项集合，y_i表示集合Y中的元素，y'表示基准标注布局，ψ(x_i,y_i)表示x_i对应的布局候选项y_i所提取的特征，ψ(x_i,y')表示x_i对应的基准标注布局y所提取的特征，Δ(y_i,y')表示用于量化y_i和y'两种布局之间的测度的损失函数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明基于消失点设计由粗到精估计布局候选项的框架，由消失点粗划分场景图像区域，利用全卷积网络产生的信息边缘图选取能量项概率最高区域，最后对该区域进行采样细化分，产生布局候选项；该方法能缩小布局候选项可能的区域范围并能提高候选项产生的精度，得到更好的估计结果；

(2)本发明在原有特征的基础上引入对空间方向有约束的法向量特征和与空间距离有关的深度特征，同时考虑候选项多边形间的空间位置关系，使得有更好的特征进行模型参数学习和模型推论以获取更佳的布局候选项。

附图说明

图1是本专利方法的流程示意图。

图2是信息边缘估计全卷积神经网络模型框架图。

图3多尺度卷积神经网络模型图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明公开了一种基于信息边缘由粗到精布局候选项生成和多模态异构特征融合的室内场景布局估计方法。首先，针对室内场景图像使用自适应阈值边缘检测算子提取场景直线段，根据直线段的方向聚类估计得到场景图像消失点，从水平和竖直方向消失点出发等角度间隔引出离散采样射线粗划分整个场景图像区域；然后，采用VGG-16全卷积神经网络得到室内场景图像信息边缘能量图，基于信息边缘图和图像粗划分区域从水平和竖直角度分别选取图中能量较高的区域，细采样所选区域产生布局候选项；接着，利用空间多尺度VGG-16卷积神经网络，得到场景图像表面的方向法向量和几何深度特征，结合场景图像结构底层的线组成员特征和语义属性的几何上下文特征，采用积分几何累加计算方法得到场景图像区域级的特征；最后，结合场景布局候选项多边形一元共生呈现与相应多边形区域之间二元约束关系，从候选项得分排序角度出发建模室内布局估计问题；采用结构化SVM算法学习模型参数；推理出得分最高的候选项即为室内场景布局估计。本发明逐步缩小候选项生成区域，并结合多种模态特征对布局候选项进行约束，提高了室内估计布局精度。

本发明利用信息边缘的多特征室内场景布局估计的框架，在实际应用过程当中，利用信息边缘从粗到细产生候选项，基于区域级多特征一二元关系进行布局估计，包括如下步骤：

步骤A、针对室内场景图像，用边缘检测算子提取边缘轮廓，筛选轮廓中的直线段并估计图像消失点，从消失点出发做采样射线粗划分场景图像区域。其中，边缘检测算子有Canny算子、Roberts算子、Sobel算子、Prewitt算子等，本实施例中采用Canny算子。

步骤A1、利用Canny算子边缘检测的方法对室内场景图像进行处理，输入场景图像通过高斯滤波器获取平滑效果，再对其进行一阶偏导的有限差分，计算出梯度的幅值和方向，仅仅得到全局的梯度并不足以确定边缘，通过保留局部梯度最大的点抑制非极大值来确定边缘，最后进行双阈值算法检测和连接边缘，以获取场景图像中的边缘直线段。为了获取消失点方向，本发明设计阈值只筛选出像素点长度大于30的直线段，这样每个图像只需要计算约100-200条直线段。

步骤A2、用Rother’s算法的投票策略，计算点和线段间角度的偏差得分。本发明中，定义直线段l与候选消失点p的关系如下，

其中，l表示线段，|l|表示线段长度，α是直线段l和消失点p与直线段中点连线的夹角。γ是鲁棒的阈值，在实验中设为γ＝0.1。为了获取消失点方向，太短的直线段方向性不强易造成实验的复杂度，所以筛选出像素点长度大于30的直线段，这样每个场景图像只需要计算约100-200条直线段。

所有的候选点都是三个一组的消失点，检测到的直线段相交形成的交点。使用一个交替贪婪策略选择得票最高的点，然后去除得票最高点对应的消失线，在场景图像平面上，将剩下的相交点从场景图像中心向外延伸。消失点的位置误差越靠近场景图像的中心对盒布局的估计越重要，所以使用可变大小的变量。场景图像中的大部分线都会位于三个正交方向中的一个上面，所以上述操作大大减少了搜索空间的复杂性并且对室内场景的作用效果明显。

一旦最优消失点被确定，场景图像中所有检测到的直线段都能够对齐三个消失点中的一个，投给同一个消失点的线段称为线成员。通过消失点计算能选取空间直角坐标系xyz方向上的三个正交消失点vp1，vp2，vp3，其中vp1是横轴x方向消失点，vp2是纵轴y方向消失点，vp3是竖轴z方向消失点。

本实施例中，根据A1中获得的直线段进行消失点估计的方法，具体为：

3)将所有x方向线段对p_k的得分贡献进行求和，得到p_k的得分

4)所有K个交点中得分最高的即为方向上的的消失点vp₁；

5)再基于如2)至4)中相同的投票得分机制，分别计算y方向和z方向上的直线段，即可得到最终的y方向的消失点vp₂与z方向的消失点vp₃。

步骤A3、分别从消失点vp1和vp2出发，以vp3为参照，等间距做出成对射线划分场景图像区域，其中，消失点射线的采样频率可以调整。本实施例中，为了粗划分场景图像区域，采样频率N＝10，即分别从x方向和y方向做十条采样射线。

步骤B、采用基于VGG-16的全卷积神经网络获取场景图像信息边缘图，结合粗划分场景图像区域，选取图中能量较高区域，并细采样该区域产生布局候选项。

步骤B1、针对输入图像，利用深度学习的基于VGG-16的全卷积神经网络框架，网络框架如图2所示，具体参数如表1所示，通过多个卷积层提取图像像素级的特征图，将最后一层的特征图用反卷积层进行上采样，以获取浓密的像素输出，产生信息边缘图和几何上下文标签图。

表1全卷积神经网络具体参数

全卷积网络(FCNs)在像素标注问题上有很好的表现，本发明受其启发，联合训练全卷积网络完成两个任务：产生信息边缘图和产生几何上下文标签图。

用Caffe学习VGG-16结构的全卷积网络，使用32像素预测步长的FCN(FCN-32)训练NYUDv2RGBD数据集中40类的室内语义分割任务。原始的网络有两个输入流，一个输入RGB图像，一个输入深度特征，本文舍弃深度输入层，使用剩下的RGB层初始化FCN网络。然后在微调网络的学习率基准为10^-4并且高动量为0.99，新加入的最后一个卷积和反卷积层有一个更高的学习率设为10^-3。通过共享FCN除反卷积层外的所有层来进行联合训练，在最后的反卷积层中，本发明产生对应各自类别输出结果的不同SoftMax概率图。该网络的总损失是两个交叉熵分类损失的总和：一个是信息边缘标签预测，一个是几何上下文标签预测。最终实验也证明联合的损失优化的确对信息边界的精准度有提高。

步骤B2、利用步骤B1获取的信息边缘图，结合粗划分场景图像区域，选取合适的能量项最高区域。

信息边缘图中边界信息具有较高能量，也反映出室内场景图像空间布局的信息。本发明以信息边缘信息为先验条件，在消失射线划分场景图像区域后，分别计算步骤A中以vp1划分和以vp2划分的区域中各个区域所含高能项的数量。在信息边缘图中，每个像素点都有一个数值，表示该点能量项的大小，能量项数值区间在[0,1]之间，本发明中设置能量项>0.75的像素点为高能项。比较每个区域中所包含像素点能量项数值大小，统计各区域中高能项像素点的数值。最后，以vp3作为参考点，将粗划分的场景图像区域划分类成上、下、左、右四个方向类型，比较每个方向类型中区域高能项数量多少，在每个方向类型中都选取一个高能量项最多区域。

步骤B3、分别计算步骤B2中选取的四个区域上两条射线的夹角角度θ，夹角角度根据细采样频率M进行等间距划分，分别从消失点vp1和vp2出发以角度θ/M再次做出采样射线，以细分概率较高的区域，其中，细采样频率可以根据需要选取。四个区域都进行细采样后，新射线的交点会形成布局估计候选项的中墙角点，消失点vp3和四个角点的连线与场景图像四周边框相交，以产生布局候选项。

步骤C、提取场景图像的线组成员、几何上下文、深度、法向量特征，采用积分几何累加计算方法得到场景图像区域级的特征。

步骤C1、线组成员特征和几何上下文特征即为分别由步骤A1中获得的直线段信息和步骤B1获得的几何上下文信息。

线组成员特征是根据检测场景图像直线段时获取的线组成特征，其中包含颜色、文理、透视线索等线性特征。对于空间布局估计中的任意一个多边形F_k，其无权重的线组成员特征f_l定义如下：

其中，L_k表示检测出的线段中位于多边形F_k内部的所有线段的集合，C_k表示检测出的线段中可以归属为构成多边性F_k的所涉及到两个消失点的所有线段的集合。需要注意的是公式中的|l|表示线段l的长度。

几何上下文特征由步骤B1产生信息边缘图的全卷积网络双输出中另一个输出结果得到。

步骤C2、设计了一个单一多尺度卷积网络结构，在像素级别获取场景图像的深度特征和表面法向量特征；

多尺度卷积网络结构使用序列化的尺度逐步细化预测，从输入场景图像中直接产生像素级特征图，并不使用任何超像素或低层次的分割来捕获场景图像的细节，且使用一系列卷积网络可以对齐到许多场景图像的细节大大提高分辨率。

基于VGG-16的多尺度卷积网络结构模型比较深，有较多的卷积层，同时具有三个尺度模型如图3所示，具体参数如表2所示，所以最终的输出分辨率较高能提高到输入的一半。第一个尺度是完整图像视角尺度，其预测出一个粗燥的但是对整个图像区域具有空间变化的特征，该尺度中对整幅图像使用了两个全连接层。第二个尺度是预测尺度，在这个尺度中进行中等分辨率的预测，结合一个从较窄图像视角考虑更详细信息以及上一层尺度提供的完整图像视角信息，通过卷积和池化获取特征中等分辨率的映射。第三个尺度是高分辨率尺度，该尺度结合原始图像输出和尺度2的特征映射，使用更精细的步数，能分辨出图像较多细节，得到高分辨率的结果输出。该模型从尺度1和尺度2并不传递输出预测结果而是传递多通道特征图，这样做时，可以能够联合输入图像和前两个尺度的网络一起训练，这样简化训练过程并且取得性能增益。

表2多尺度卷积神经具体网络参数

对于深度预测和法向量预测只需要使用不同的损失函数就可以输出不同的目标数据，深度预测和法向量预测的损失函数如下：

在深度预测的损失函数中，D和D^*分别表示预测和基准深度图，d＝D-D^*表示两者的差值，i表示场景图像中某一像素点，n表示场景图像中所有像素点的个数之和。

和

分别是水平和竖直方向上像素点之间深度的变化值。在法向量预测的损失函数中，N和N^*分别表示预测和基准法向量图。

步骤D、根据布局候选项到特征的一元和二元映射关系，设计布局估计的结构化回归模型，引入结构化学习算法，能量函数最小的即为室内场景布局估计。

步骤D1、基于多个布局候选项中选取一个最后作为布局估计的情况进行问题形式化，设计成候选项得分排序问题。

产生多个室内场景布局候选项后，每个输入场景图像最多可分成五个多边形组成的图像，需对其和真实空间布局对比，获取误差得分进行排序，最优的一个即为布局估计，本文将其定义成最大边界结构化回归问题。给定一个输入场景图像，最优的布局估计表示为y*，则

其中，y^*表示最优的布局估计，f(x,y；ω)表示室内场景图像x和其布局候选项y之间的映射关系，ω表示权重向量，通过在给定的训练图像集(室内场景图像与其对应基准标注布局)上进行训练学习，求得上述映射关系f。

步骤D2、将步骤C3中的区域级特征映射到布局候选项多边形中形成一元映射特征，基于室内墙面间的位置设计布局候选项空间约束关系，形成二元映射特征。

室内场景图像空间中杂物对布局估计的干扰比较大，为了获取更好的布局估计，本文利用多特征对空间布局进行一元关系和二元关系的约束。特征映射关系表示为：

其中，α，β∈F＝{左墙，右墙，前墙，天花板，地面}，x是输入图像，y_α和y_β表示候选项中某个多边形。

表示一元特征的权重向量，ψ_o(x,y_α)表示针对候选多边形提取的区域级特征。

表示二元特征的权重向量，ψ_b(y_α,y_β)表示候选项多边形两两之间的位置关系特征；ω＝ω_o+ω_b。

第一部分表示一元映射关系，本发明中采用多特征，其特征可以细分为四部分：

式中，α∈F＝{左墙，右墙，前墙，天花板，地面}，x表示输入图像，y表示布局候选项，y_α表示布局候选项中某一个面。ψ_LM(x,y)表示线组成员特征，通过直线段检测获取了线段的梯度特征、色彩特征、hog特征等；ψ_GC(x,y)表示全卷积神经网络获得的几何上下文信息；ψ_N(x,y)是通过三维几何理解的方式获取的法向量特征约束多边形的方向；ψ_D(x,y)是深度特征，数据集没有提供深度特征，通过步骤C2获得深度特征。

第二部分表示候选项多边形对应室内三维空间墙面间的位置关系，利用室内墙面之间的位置关系约束多边形间可能的存在。其位置关系如表3所示，其中，1表示A不可能高于B，2表示A不可能低于B，3表示A不可能在B右边，4表示A不可能在B左边，5表示A不可能在B前面，6表示A不可能在B后面。

表3多边形位置关系表示

A-B	天花板	地面	左墙	前墙	右墙
						天花板		2	2,4	2,5	2,3
地面	1		1,4	1,5	1,3
						左墙	1,3	2,3		3,5	3
前墙	1,6	2,6	4,6		3,6
						右墙	1,4	2,4	4	4,5

表中，A表示第一列的区域名称，B表示第一行的区域名称，表中的数值1-6表示A与B的位置关系，比如1可以表示成地面不可能高于天花板。通过这种约束关系，可以理清多边形之间在三维空间上的位置关系，比如一个多边形总是低于其他多边形区域，则说明该多边形为地面的可以能性最高，若检测到一个多边形区域在某多边形的左侧，则说明该多边形肯定不会是右墙，就不需要和基准图像中右墙的特征向量比较。将三维的几何关系通过二维图像表示，本文利用多边形区域中点的坐标比较其区域高低和左右关系，再根据区域中心点深度值的大小判断区域的前后关系。假设区域q的中心坐标为(x_q，y_q)，区域p中心坐标为(xp，yp)，若x_q>x_p，y_q>y_p说明区域b不可能在区域q的右侧，也不可能高于区域q。即满足条件1和3。

步骤D3、根据布局候选项与准基图像之间的关系，设计基于多边形面缺失、多边形质心位置和多边形像素误差和三方面的损失函数，具体公式表示如下：

Δ(y_i,y)＝Δ_t(y_i,y')+Δ_c(y_i,y')+Δ_p(y_i,y')

Δ_t(y_i,y')＝∑_k∈[1,5]δ(F_ik,F_k)

Δ_c(y_i,y')＝∑_k∈[1,5]||c_ik-c_k||²

公式中，y'是基准布局，y_i是第i个布局候选项；F_k∈{F₁,F₂,F₃,F₄,F₅}是基准布局标注表示，其中F₁表示地面，F₂表示中墙，F₃表示右墙，F₄表示左墙，F₅表示天花板；F_ik∈{F_i1,F_i2,F_i3,F_i4,F_i5}是布局候选项标注表示，i表示第i个候选项，1≤i≤I，I表示训练图像集中室内场景图像的数目。其中F_i1表示地面，F_i2表示中墙，F_i3表示右墙，F_i4表示左墙，F_i5表示天花板。Δ_t(y_i,y')表示多边形面缺失误差和，判断布局中是否有多边形缺失，δ(F_ik,F_k)是激励函数，当基准图像多边形存在而候选项多边形不存在，或者基准图像多边形不存在而候选项多边形存在，这两种情况下激励函数置1；若候选项多边形和基准图像多边形同时存在或者同时不存在，在激励函数一直是0。Δ_c(y_i,y')表示多边形质心位置误差和，测量候选项多边形区域面的质心c_ik和基准图像多边形区域面的质心c_k的移位差，通过计算区域面所有像素点坐标的平均值就可以得到质心，质心的位移差则通过计算两个像素点的距离计算，若基准图像和候选项多边形都缺失则位移差为0。Δ_p(y_i,y')表示多边形像素误差和，来检测是否完整覆盖，若候选多边形区域和基准多边形区域完全覆盖，则损失函数为0，说明这两个区域完全重合；若损失函数有值，损失函数的值越大，说明两个区域覆盖度越低，很有可能不是同一个区域。

步骤D4、根据特征映射关系和损失函数，采用结构化SVM(Suport VectorMachine，SVM)的学习算法进行参数学习。

将一幅图不同的候选项进行得分排序，以得到最好的一个候选项与ground truth的布局对应。这是一个结构化回归问题，所以用结构化SVM这样的学习框架来定义：

ω^Tψ(x_i,y_i)-ω^Tψ(x_i,y')≥Δ(y_i,y')-ξ_i,

其中，x_i表示训练图像集中第i个室内场景图像，1≤i≤I，I表示训练图像集中室内场景图像的数目,ξ_i是x_i松弛变量；C是比例系数，本发明中C＝1。ω是权重向量ω＝ω_o+ω_b。Y表示布局候选项集合，y_i表示集合Y中的元素，y'表示基准标注布局，ψ(x_i,y_i)表示x_i对应的布局候选项y_i所提取的特征，ψ(x_i,y')表示x_i对应的基准标注布局y所提取的特征，Δ(y_i,y')表示用于量化y_i和y’两种布局之间的测度的损失函数。

步骤D5、将学习到的参数带入到步骤D1的推理模型中，对测试图像进行推理测试。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。