CN104637090A

CN104637090A - 一种基于单张图片的室内场景建模方法

Info

Publication number: CN104637090A
Application number: CN201510064643.7A
Authority: CN
Inventors: 张岩; 刘孜成; 朱少山; 缪峥; 郑智斌; 宫钰嵩; 孙正兴
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2015-05-20
Anticipated expiration: 2035-02-06
Also published as: CN104637090B

Abstract

本发明涉及一种基于单张图片的室内场景建模方法，该方法在用户输入的单幅室内场景图片启发下，以预先构建好的模型库为基础，通过图像分析与模型检索二个阶段来实现室内场景的建模。在图像分析阶段，利用图像分析技术结合图像分割方法获得输入图像场景中所包含的待建模物体；在模型检索阶段，将图像中待建模物体和模型库中各个视点下的三维模型统一渲染成线框图的形式，并采用星图的表示方法，对所获得的各线框图进行层次化特征编码。在检索过程中正是利用图像中待建模物体与模型库中三维模型星图的匹配程度，来获得场景图片中类似的三维模型，进而完成场景的重建。

Description

一种基于单张图片的室内场景建模方法

技术领域

本发明涉及一种基于单张图片的室内场景建模方法，属于计算机图像处理和计算机图形学领域，特别是基于图像的建模方法。

背景技术

随着数字摄影时代的到来，数字图像已经成为最为丰富的数字媒体之一，且我们要构建的很多三维模型都能在现实世界中找到或加以塑造，因此可以从图像中获得丰富的创造性启发，实现基于图像的几何建模。事实也正是如此，从真实场景图像中获取三维信息一直都是三维建模领域的一个重要研究方向。近年来，建模技术的发展使互联网上的三维模型数据集与日剧增。例如Google公司提供的3D Warehouse、普林斯顿大学形状分析小组的3D Model Search Engine以及Aimshape的Shpe Repository等模型库都提供了极为丰富的三维模型资源。利用这些已有资源，将其融入到模型自动生成或重建中，用以生成全新的三维模型已经成为三维建模领域另外一个重要发展方向。由于基于单幅图像进行三维重构是个病态问题，因此很难直接从其本身进行曲面场景的重建。但已有的三维模型却能够为其提供很多类似的曲面模型，所以可以通过对图像的分析获取待建模物体，再在已有的模型数据集中搜索与其类似的曲面模型，来完成最终三维场景的重构。

基于图像建模技术是人们心目中一种理想的建模方式。传统的基于图像建模技术往往需要从不同视点拍摄同一场景或物体的多幅图像作为输入，采用立体视觉等方法进行三维重建，如文献1Scharstein D,Szeliski R.A taxonomy and evaluation of densetwo-frame stereo correspondence algorithms.International Journal of Computer Vision,2002,47(1):7-42。这就在一定程度上限制了图像在几何建模中的应用。由于通常获得单幅图像更为方便，所以基于单幅图像的三维重建应用范围更广些。计算机视觉中传统的基于单幅图像建模方法往往基于明暗、纹理、焦距等线索来实现几何重建，但这些方法通常对画面中的景物的形状、反射属性等都有严格的限制，所以只适合某些特定场景的重建。随后的研究中，研究人员通过引入恰当的交互来有效的简化单幅图像重建问题，如文献2Chen T.,Zhu Z.,Shamir A.,Hu S.M.et al.3-sweep:extracting editableobjects form a single photo.ACM Transactions on Graphics(TOG).Vol.32.No.6.SIGGRAPH Asia 2013.Article 195，这类方法多从图像自身信息出发，通过交互指定灭点信息和几何不变量实现单幅图像的几何重建，但也存在一定的局限性，通常只能重建出由平面和基本几何形体所构成的场景。本文基于已有的三维模型库完成单幅图像场景重建，能够生成更加合理的曲面模型。

随着互联网上可用的三维模型增加，基于模型数据集的数据驱动几何建模方法近年来已成为了一种新的建模方式。其中很多研究只针对单个物体进行建模，根据输入对象的不同，现有方法大致可以分为三类：一类方法从图像出发借助模型数据集进行相应的几何重建，如文献3Kai Xu,HanlinZheng,Hao Zhang,Daniel Cohen-Or,LigangLiu,YueshanXiong.Photo-Inspired Model-Driven 3D Object Modeling.ACMTransactionson Graphics(SIGGRAPH 2011),2011都可在图像的启发下，借助分割好的模型数据集，通过部件检索，组装形变等操作完成几何重构。一类方法从草图出发借助模型数据集进行相应的几何重建，如文献4Eitz,M.,Richter,R.,Boubekeur,T.,Hildebrand,K.,and Alexa,M.2012.Sketch-based shape retrieval.ACM Transactions on Graphics 31,4,31:1-31:10等实现了相应的草图检索技术，用户可根据输入的草图在已有的模型库中搜索到结构类似的几何模型，但这类方法主要关注的是检索性能的提高，而不是建模本身。还有一类方法利用已有的模型数据集对采集的残缺点云数据进行重构，利用采集图像和点云信息，借助检索思想在与物体同类模型所组成的模型数据集中搜索匹配部件，并通过部件组装拼接完成几何模型的重构。上述研究都是只针对单个物体进行构建，并且除草图建检索技术外，其他方法对模型数据集都有一定的要求，需根据所构建物体的不同，按类别构建所需的模型库。而在进行场景构建时，由于场景中包含多个物体，并且在构建过程中如无标注，并不知道场景中各物体的具体类型，因此很难分类组织模型数据库，进而很难直接将上述方法扩展到场景建模研究中。

随着技术的发展，逐渐也出现了一些基于模型数据集的场景构建方法。根据输入对象的不同，现有方法大致可以分为二类：一类方法仍然是从草图出发借助已有的模型数据集进行场景重建，如文献5Xu K,Chen K,Fu H,et al.Sketch2scene:Sketch-basedco-retrieval and co-placement of 3d models[J].ACM Transactions on Graphics(TOG),2013,32(4):123.等方法将草图检索技术和草图建模技术进行了组合，用于场景构建，由于场景中包含多个物体，所以他们对输入的草图顺序及类型都或多或少有些要求。另外一类方法是利用已有的模型数据集对采集的残缺点云数据场景进行重构，如6Shao T,XuW,Zhou K,et al.An interactive approach to semantic modeling of indoor scenes with anrgbdcamera[J].ACM Transactions on Graphics(TOG),2012,31(6):136等方法，他们利用所获得的图像和点云信息对场景进行分割，得到场景中所包含的单个物体，然后再利用检索技术在模型数据集中搜索与其匹配的三维模型，当所有物体都搜索完毕后，便可完成场景的重建。上述研究虽然取得了一系列的研究成果，但对输入都有特殊的要求(非专业用户很难绘制场景草图，无专业设备也很难获得场景的点云数据)，不便于普通用户的使用。由于真实场景的单视角图像更容易获得，因此如能从单张真实场景图像出发，利用已有模型数据集进行场景重构，将更具应用价值，本文也正是从该点出发进行相关研究的。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种新的单张图片室内场景建模思路和一种新的模型检索方法。

技术方案：本发明公开了一种基于单张图片的室内场景建模方法，该方法用于从单张室内场景图片中还原出三维场景，包括以下步骤：

步骤(1)图像分析阶段，对于给定的一张单视点下所拍摄的室内场景输入图像I，以及一个有多类模型组成的模型库S，对输入图像I进行分析，然后结合图像分割，提取出输入图像I中所包含的待建模物体{O₁，…，O_n}；

步骤(2)，模型检索阶段，利用图像中提取的待建模物体{O₁，…，O_n}，在模型库S中检索得到匹配的三维模型，完成对应场景的重建。

本发明步骤(1)中对输入图像I进行分析，然后结合图像分割技术，提取出输入图像I中所包含的待建模物体{O₁，…，O_n}，具体步骤为：

步骤(11)，利用几何推理技术分析图像，求取场景灭点，并得到图像中待建模物体候选包围盒；接下来，对候选包围盒进行迭代式的评估，最终得到输入图像中待建模物体包围盒；

步骤(12)，利用mean shift图像分割方法对输入图像I进行过分割，并在所求得的待建模物体包围盒的指导下，对过分割区域按比例进行合并，以提取出图像中所包含的具体待建模物体{O₁，…，O_n}。

本发明步骤(2)中，利用图像中提取的待建模物体{O₁，…，O_n}，在模型库S中检索得到匹配的三维模型，完成对应场景的重建，包括如下步骤：

步骤(21)将求取的待建模物体{O₁，…，O_n}与模型库S中三维模型利用渲染技术，渲染成线框图的形式；对线框图进行编码，统一到星图的表示方式；包括以下步骤：

步骤(211)，对于图像中的待建模物体{O₁，…，O_n}使用线绘制技术提取基本线特征，渲染成线框图；对于模型库S中的所有三维模型在不同视点下，利用轮廓线技术渲染成对应视点下的线框图；

步骤(212)对模型库S中所有模型在所有视点下渲染得到的线框图进行片采样，得到很多不同的片，其中每片大小为35*35；利用daisy描述子对每片特征进行提取并用k-means聚类算法进行聚类，得到150个聚类中心，每个聚类中心称之为一个标记，这样，每个标记就可以代表一组类似的片；

步骤(213)用标记对每张原始线框图进行片替换，即对原始线框图中每一个局部的片，都可以找到一个与之最类似的标记，并用该标记将它替换；

步骤(214)把片替换后的线框图中的所有标记用星图表示，星图的每个节点对应一个标记，星图中心对应线框图的中心，星图的边对应中心到每个节点的连线。

步骤(22)把利用图像分析技术获得的场景灭点，根据三维透视投影原理，计算出场景视点E在物体坐标系中的坐标：

E(X_E,Y_E,Z_E)＝E(X_E′-D×cosα,Y_E′-D×cosβ,Z_E′-D×cosγ)

其中，X_E,Y_E,Z_E为场景视点E在物体坐标系中的坐标，X_E′,Y_E′,Z_E′为场景视点E在投影平面上的正投影E′的坐标，D是投影焦距，α，β，γ分别是投影平面法向量与物体坐标系x，y，z轴的夹角。

接下来，将物体坐标系转换到球坐标系下，用二元组来表示场景视点E相对于场景的偏转角度：

其中，表示水平方向偏转角度，θ表示竖直方向偏转角度，二元组用来指导后续的检索过程；

步骤(23)在检索过程中，即在待建模物体与模型库中不同视点下的所有模型匹配的时候，根据所求场景视点进行有选择性地匹配；匹配通过星图之间的相似度评分来计算，公式如下：

P (G^{q}, G^{S_{k}}) = \underset{i}{Σ} \max_{j} P (V_{j}^{s_{k}} | V_{i}^{q}) P (E_{j}^{s_{k}} | E_{i}^{q})

其中，G^q表示待建模物体对应的星图表示，表示某视点下模型对应的星图表示，P(·,·)表示G^q和之间归一化的距离衡量值，用概率进行表示，主要衡量星图结点之间以及边之间的相似程度。表示结点的特征相似度，表示边的位置相似度，其中分别表示G^q和中的对应结点，分别表示对应的边；

步骤(24)将基于星图匹配检索出的三维模型供用户选择，重构出三维场景。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明方法的主要流程效果示意图。

图2为本发明的图像分析结果。

图3为本发明中包围盒辅助图像分割过程与待建模物体的提取结果。

图4为本发明中待建模物体利用线绘制技术所得的线框图示例。

图5为本发明中三维模型利用轮廓线技术得到的线框图示例。

图6为本发明中所得部分标记示例。

图7为本发明中对原始线框图进行片替换的结果与星图表示示意图。

图8为本发明求取场景视点的示意图。

图9为本发明中模型检索的主要流程图。

图10为本发明的示例图场景重建结果。

图11为本发明流程图。

具体实施方式

对于给定的一张单视点下所拍摄的场景图像I，以及一个有多类模型组成的模型库S，本发明经过如下步骤，完成对单张室内场景图片的建模，流程图如图1和图11所示：

步骤(1)，图像分析阶段，对于给定的一张单视点下所拍摄的室内场景图像I，以及一个有多类模型组成的模型库S，对输入图像I进行分析，然后结合图像分割技术，提取出输入图像I中所包含的待建模物体{O₁，…，O_n}；

步骤(2)中，利用图像中提取的待建模物体{O₁，…，O_n}，在模型库S中检索得到匹配的三维模型，完成对应场景的重建。

更具体的说，本发明针对用户输入的单张室内场景图片I，首先分析图片场景，提取待建模物体{O₁，…，O_n}；接着提出一种新的线框图编码技术，从模型库S中检索出匹配模型，从而完成三维场景的重建。

实施例

下面根据实施例说明本发明的各个步骤。

步骤(1)，图像分析阶段，对于给定的一张单视点下所拍摄的室内场景图像I，以及一个有多类模型组成的模型库S，对输入图像I进行分析，得到待建模物体包围盒，根据包围盒信息指导图像分割，完成图片中待建模物体的提取。

步骤(11)，对输入图片的几何推理分析。

本发明采用基本的基于单幅图像的几何推理方法，文献7Lee D C,Hebert M,Kanade T.Geometric reasoning for single image structure recovery[C]//Computer Visionand Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:2136-2143.文献8Gupta A,Hebert M,Kanade T,et al.Estimating spatial layout of rooms usingvolumetric reasoning about objects and surfaces[C]//Advances in Neural InformationProcessing Systems.2010:1288-1296，对室内场景进行计算，求取场景观察视角以及所包含主要物体的大致包围盒。

对输入图像I，如图2中(a)所示，首先，利用Canny算子求取图像中所包含的边缘信息，并将所求的边缘点进行连接获得对应线段集合，如图2中(b)所示。利用扫描线算法，将所求的代表线段按方向分为三组，并用同一组的线段来求取其所在的平面，所求得的三个平面便为区域中三个可能方向的方向平面，如图2中(c)所示。通过方向平面之间不同的组合，可以获得物体可能的包围盒信息，如图2中(d)。然后，由文献7的方法，可以得到很多不同的可能房间结构，如图2中(e)。接下来，将所得的不同单个房间结构与可能的若干待建模物体候选包围盒进行组合，以获得到一系列场景假设。但并不是所有场景假设都是合理的，最后，还需通过物体间不重叠、物体与墙面不相交等体积约束的空间推理来排除不合理的场景假设，以保留合理的场景假设。根据文献8的方法，通过对这些场景假设的评价，得到最优的场景假设。在本发明中，如果自动分析效果不理想，可以交互指定某个满意的物体包围盒，在指定包围盒确定的情况下，算法迭代地使用体积约束进行空间推理，评价场景假设，确定其他物体的包围盒位置，直到最终得到满意的场景假设。图2中(e)为最终的场景待建模物体包围盒情况。

步骤(12)，提取待建模物体。

从输入图像I中提取待建模物体的过程如图3所示。首先，利用mean shift图像分割方法，文献9Comaniciu D,Meer P.Mean shift:A robust approach toward feature spaceanalysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(5):603-619，对场景进行过分割，过分割结果如图3中(a)；然后，对包围盒覆盖区域进行区域合并操作，即通过过分割所得的区域只要70％的区域在包围盒内部，就将该区域进行合并，如图3中(b)所示；通过上述操作，我们从输入图像I中提取了4个待建模物体{O₁,O₂,O₃,O₄}，如图3中(c)所示。

步骤(2)，模型检索阶段，利用图像I中提取的待建模物体{O₁,O₂,O₃,O₄}，在模型库S中检索得到匹配的三维模型，完成对应场景的重建。

步骤(21)待建模物体与三维模型的统一表示。

本步骤将待建模物体{O₁,O₂,O₃,O₄}与模型库S中不同视点下的三维模型进行线特征提取，即渲染到线框图的形式；再将线框图编码成星图作为统一的表示形式；最后通过星图的即将他们统一为线框图编码后再进行检索。

步骤(211)渲染得到线框图。

在对待建模物体O_i(i∈(1,…,4))进行线框图提取时，本文采用线绘制技术(文献10Kang H,Lee S,Chui C.Coherent line drawing.Proceedings of the ACM Symposium onNon-Photorealistic Animation and Rendering.San Diego,CA,USA,2007.43-50)来完成，图4中(a)为待建模物体，(b)为提取出的线框图。对于模型库S中的每个三维模型，选取84个视点，在这些视点下使用轮廓线技术(文献11DeCarlo D,Finkelstein A,Rusinkiewicz S,et al.Suggestive contours for conveying shape[J].ACM Transactions onGraphics(TOG),2003,22(3):848-855)进行渲染，每一个视点对应一个线框图，图5中展示了示例模型的线框图渲染结果，图5中(a)为某一视点下的示例模型，图5中(b)为渲染出的对应线框图。由于在对待建模物体和三维模型使用的渲染方法不同，所以它们得到的线框图质量也不同，所以接下来通过对待建模物体线框体进行平滑和腐蚀操作，以保证其绘线质量和三维模型渲染出的绘线质量统一，图4中(c)显示了统一后的待建模物体线框图。

步骤(212)片采样与k-means聚类

对于从模型库S中得到的所有线框图，定义一组标记，用来表示线框图中可能存在的各种局部边缘结构特征，这些特征包括直线、t-连接、y-连接、拐点、平行等等。为了得到这组标记，首先将所有线框图统一到820*668大小，选取每片35*35大小进行片采样，得到很多不同的片；接下来用Daisy描述子(文献12Winder S,Hua G,BrownM.Picking the best daisy[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:178-185.)计算每一片的特征向量；最后通过k-means方法对所求得的所有片的特征向量进行聚类，得到150个聚类中心，即150个标记。图6中给出了部分标记。

本发明中对模型库S中三维模型渲染的视点做如下说明：由于室内场景物体底部不可见，所以进行三维模型渲染时只关注模型上半部分的视点，实验中对每个模型水平方向选取14个角度、竖直方向选取6个角度，共84个视点进行渲染；当库中具有180个三维模型时，共获得15120幅线框图。

片采样的具体过程如下：针对每幅线框图，统计所有黑色像素点。对其中某一个像素点，删除其周围曼哈顿距离小于17的点，这样依次进行会得到一系列稀疏的离散点。以这些点为片中心，在原始线框图中提取很多35*35大小的片。

步骤(213)对线框图进行片替换。

有了该组标记后，对于任何一个输入的线框图都可以用一组标记进行描述，即对线框图中各区域局部的片，用与之最相似的标记进行替换。片替换规则如下：每一次计算所有以黑色像素点为中心的片的Daisy特征向量，将它们与150类标记比较，找出最为相似的一组片和标记。然后，用该标记替换对应的片，并将原线框图中该片位置所有黑色像素点抹去。对线框图中剩余的黑色像素点重复上述过程，直到原线框图中无可替换的片时结束该操作。图7中展示了片替换后的结果，图7中(a)为待建模物体的原始线框图与片替换结果，图7中(b)为示例模型的原始线框图与片替换结果。

步骤(214)线框图的星图表示。

接下来，借鉴文献13Yi Li,Yi-Zhe Song,Shaogang Gong.Sketch Recognition byEnsemble Matching of Structured Features.In Proceedings British Machine VisionConference 2013.Pages 35.1--35.11，本发明采用星图对每幅线框图中所有替换过的标记进行表示。具体细节如下：首先，把所有标记的重心作为线框图的中心；将所有标记与该中心相连，完成星图的构建。星图表示的简单示意图如图7中(c)所示。将每幅图片的星图表示为G＝(V，E)，其中V为星图结点集合，每个结点对应一个标记；E为星图的边，定义为连接中心到各标记中心的矢量。可以看出，能够通过星图对标记之间的结构关系进行合理描述。这样便将待建模物体和所有视点下的三维模型统一用星图表示了出来。

步骤(22)图片场景视点计算。

根据输入图像的几何推理可以求得三个灭点V_x,V_y,V_z。如图8中(a)所示。图8中(b)为灭点形成的示意图，空间中平行的两条直线在平面上的投影的延长线交于灭点，灭点与视点的连线平行于空间中的那两条平行线。假设物体坐标系QXYZ，原点Q在投影画面上的投影点为Q′。从Q′出发向三个灭点V_x,V_y,V_z做直线，那么Q′V_x,Q′V_y,Q′V_z便可以看作QXYZ三条相互垂直的坐标轴在画面平面上的投影。对于图8中(c)所示的三个灭点V_x,V_y,V_z(分别对应图8中(a)中的三个灭点)，以它们为顶点作三角形ΔV_xV_yV_z，分别以三角形的三边为直径做半球，三个球在空间中的交点即为观察视点E，其在图像平面的正投影为E′。根据图8中(b)的示意图，视点与灭点的连线平行于坐标轴，所以如图8中(d)所示，EV_z||QZ(QZ为物体坐标系QXYZ的z轴)，视点E在过此三角形垂心E′的法线上。

视点E距画面的距离D的计算如下：

D²＝|AE′|×|E′V_z|＝|BE′|×|E′V_y|＝|CE′|×|E′V_x| (1)

接下来，将物体坐标系QXYZ沿投影方向平移，使Q与其投影点Q′重合，即假设Q与Q′是同一点。这样的假设对于物体的几何形状并无影响，因为在角度一定的情况下，改变物体与画面之间的距离，仅改变物体投影的大小，投影形状不会发生改变。如图8中(d)所示，n是画面的法向量，α，β，γ分别是n与物体坐标系QXYZ中x，y，z轴的夹角，那么可求得，夹角γ的余弦值为：

\cos γ = \frac{D}{| {EV}_{z} |} = D / sqrt (D^{2} + {| E^{'} V_{z} |}^{2}) - - - (2)

同理可得夹角α，β的余弦值：

\begin{matrix} \cos α = \frac{D}{| {EV}_{x} |} = D / sqrt (D^{2} + {| E^{'} V_{x} |}^{2}) \\ \cos β = \frac{D}{| {EV}_{y} |} = D / sqrt (D^{2} + {| E^{'} V_{y} |}^{2}) \end{matrix} - - - (3)

设视点E的正投影点E′在物体坐标系QXYZ中的位置矢量为E′(X_E′,Y_E′,Z_E′)。设i_z为E′V_z上的单位向量，那么从图8中(d)可得Z_E′＝|Q′E′·i_z|·sinγ，这里Q′E′·i_z是线段Q′E′在i_z方向上的投影矢量。E′的z轴坐标为：

Z_{E^{'}} = | Q^{'} E^{'} \cdot i_{z} | \cdot \sin γ = | Q^{'} E^{'} \cdot i_{z} | \times \sqrt{1 - \cos^{2} γ} - - - (4)

同理可得E′的x，y轴坐标：

\begin{matrix} X_{E^{'}} = | Q^{'} E^{'} \cdot i_{x} | \cdot \sin α = | Q^{'} E^{'} \cdot i_{x} | \times \sqrt{1 - \cos^{2} α} \\ Y_{E^{'}} = | Q^{'} E^{'} \cdot i_{y} | \cdot \sin β = | Q^{'} E^{'} \cdot i_{y} | \times \sqrt{1 - \cos^{2} β} \end{matrix} - - - (5)

从而，视点E相对于QXYZ的位置矢量为：

E(X_E,Y_E,Z_E)＝E(X_E′-D×cosα,Y_E′-D×cosβ,Z_E′-D×cosγ) (6)

接下来，将视点坐标转换到球坐标系下，用二元组来表示视点相对于模型的偏转角度，表示水平方向偏转角度，θ表示竖直方向偏转角度：

在求得场景视点后，待建模物体检索时，不需要将待建模物体的星图表示与模型库中三维模型所有视点下的星图表示逐一比较，只需要根据一定误差范围选择符合场景视点的星图进行比较。其中ε，σ为相应的误差量。

步骤(23)基于星图匹配的检索。

检索流程如图9中所示，图9中(a)表示要在模型库中检索一个待建模物体，图9中(b)表示将待建模物体与模型表示成星图进行匹配检索，图9中(c)展示了从高到低的检索排名。在进行星图匹配前，首先对所涉及的相关变量进行定义。设图像中当前待建模物体为q，在模型库中某视点下的模型为s_k，则所对应的星图分别为G^q＝(V^q,E^q)和因此查询图(待建模物体q)与检索图(某视点下三维模型s_k)之间的匹配程度可以通过下式进行计算：

P (G^{q}, G^{S_{k}}) = Σ_{i} \max_{j} P (V_{j}^{s_{k}} | V_{i}^{q}) P (E_{j}^{s_{k}} | E_{i}^{q}) - - - (8)

其中G^q,表示对应的星图，P(·,·)表示归一化的距离衡量值，用概率进行表示，主要衡量结点之间以及边之间的相似程度。其中结点之间的相似程度主要通过对应标记特征相似度来进行计算，具体计算公式如下：

P ({V_{j}}^{s_{k}} | V_{i}^{q}) = \frac{1}{1 + \exp (- | | V_{i}^{q} - V_{j}^{s_{k}} | |)} - - - (9)

其中与分别表示查询图和检索图中相应的结点。

边之间的相似程度主要通过标记位置相似度来表示，计算公式如下：

P (E_{j}^{s_{k}} | E_{i}^{q}) = \exp (- {(E_{j}^{s_{k}} - E_{i}^{q})}^{T} S_{L}^{- 1} ((E_{j}^{s_{k}} - E_{i}^{q})) - - - (10)

其中，S_L是容错的协方差矩阵，和分别表示查询图和检索图中的标记位置向量。

当有了上述定义后，可以按如下方式进行模型星图匹配。首先，对于查询图G^q中的每一个标记，在检索图中找到近似位置处的D个标记(D远小于目标图中所有标记的个数)。在D个标记中，综合考虑标记特征相似度和位置相似度，选取最相似的标记作为的对应标记，并将相似度计算结果作为累加项储存起来。我们对查询图G^q中所有标记与检索图对应标记的相似度累加求和得到一个评分，也就是两幅图的匹配评分。

为了进一步增加检索结果的准确性，在随后的一步中，选取上述前20的评分结果图，每一个反过来依次与查询图G^q比较，得到的值与第一次的值加权求和得到P，作为最终图匹配的评分值。这样的做法进一步提高了图匹配的精度。

最终评分计算公式如下：

P = ω_{1} P (G^{q}, G^{S_{k}}) + ω_{2} P (G^{S_{k}}, G^{q}) - - - (11)

其中为检索与查询图G^q的相似度评分，ω₁，ω₂为权值。为了更好的检索结果，经分析实验取ω₁＝0.5，ω₂＝0.5。

步骤(24)重构三维场景。

将待建模物体{O₁,O₂,O₃,O₄}分别检索得到的前五个模型展示给用户选择，最后将选择出三维模型组合输出得到重构的三维场景，如图10中所示，对图10中(a)作为输入图片，通过本发明的方法，重建出图10中(b)所示的三维场景。

本发明提供了一种基于单张图片的室内场景建模思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于单张图片的室内场景建模方法，其特征在于，包括以下步骤：

步骤(1)，图像分析阶段，输入一张单视点下拍摄的室内场景图像I，以及一个由多类模型组成的模型库S，对输入图像I进行分析，然后结合图像分割方法，提取出输入图像I中所包含的待建模物体{O₁，...，O_n}；

步骤(2)，模型检索阶段，利用图像中提取的待建模物体{O₁，...，O_n}，在模型库S中检索得到匹配的三维模型，完成对应场景的重建。

2.根据权利要求1所述的一种基于单张图片的室内场景建模方法，其特征在于，步骤(1)中对输入图像进行分析，然后结合图像分割方法，提取出输入图像I中所包含的待建模物体{O₁，...，O_n}，包括：

步骤(11)，分析图像，求取图像场景的灭点以及所包含的待建模物体包围盒；

步骤(12)，对图像进行过分割，并在所求包围盒的指导下，对过分割区域按比例进行合并，获得图像中所包含的待建模物体{O₁，...，O_n}。

3.根据权利要求2所述的一种基于单张图片的室内场景建模方法，其特征在于，步骤(2)中，利用待建模物体在模型库S中搜索与其匹配的模型，完成对应场景的重建，包括如下步骤：

步骤(21)将求取的待建模物体{O₁，...，O_n}与模型库S中不同视点下三维模型渲染成线框图的形式；对线框图进行编码，统一到星图的表示方式；

步骤(22)把利用图像分析技术获得的场景灭点，根据三维透视投影原理，计算出场景视点E在物体坐标系中的坐标；

将物体坐标系转换到球坐标系下，用二元组来表示场景视点E相对于场景的偏转角度；

步骤(23)在检索过程中，即在待建模物体与模型库中不同视点下的所有模型匹配的时候，根据所求场景视点进行有选择性地匹配；匹配通过星图之间的相似度评分来计算；

步骤(24)取出评分前五的三维模型供用户选择，将用户选择出的三维模型放在对应位置重构出三维场景。

4.根据权利要求3所述的一种基于单张图片的室内场景建模方法，其特征在于，步骤(21)包括以下步骤：

步骤(211)，对于图像中提取的待建模物体{O₁，...，O_n}渲染成线框图，对于模型库S中不同视点下的所有三维模型利用轮廓线技术渲染成对应的线框图；

步骤(212)对模型库S中所有模型渲染得到的线框图进行片采样，得到一组不同的片；对这些片进行聚类，得到一组聚类中心，每个聚类中心称为一个标记，每个标记代表一组类似的片；

步骤(213)用标记对每张原始线框图进行片替换，即原始线框图中每一个代表局部特征的片，都对应一个最类似的标记，并用该标记替换；

步骤(214)把片替换后的线框图用星图表示，星图的每个节点对应一个标记，星图中心对应线框图的中心，星图的边对应中心到每个节点的连线。

5.根据权利要求4所述的一种基于单张图片的室内场景建模方法，其特征在于，采用以下公式计算出场景视点E在物体坐标系中的坐标：

E(X_E，Y_E，Z_E)＝E(X_E′-D×cosα，Y_E′-D×cosβ，Z_E′-D×cosγ)

其中，X_E，Y_E，Z_E为场景视点E在物体坐标系中的坐标，X_E′，Y_E′，Z_E′为场景视点E在投影平面上的正投影E′的坐标，D是投影焦距，α，β，γ分别是投影平面法向量与物体坐标系x，y，z轴的夹角。

6.根据权利要求5所述的一种基于单张图片的室内场景建模方法，其特征在于，二元组的计算方法为：

θ = \frac{π}{2} - \arctan \frac{Y_{E}}{X_{E}}

其中，表示水平方向偏转角度，θ表示竖直方向偏转角度，二元组用来指导后续的检索过程。

7.根据权利要求6所述的一种基于单张图片的室内场景建模方法，其特征在于，步骤(23)中星图之间的相似度评分采用如下公式计算：

P (G^{q}, G^{s_{k}}) = Σ_{i} \max_{j} P (V_{j}^{s_{k}} | V_{i}^{q}) P (E_{j}^{s_{k}} | E_{i}^{q}),

其中，G^q表示待建模物体对应的星图表示，表示某视点下模型对应的星图表示，表示G^q和之间归一化的距离衡量值，用概率进行表示，用于衡量星图结点之间以及边之间的相似程度，表示结点的特征相似度，表示边的位置相似度，其中分别表示G^q和中的对应节点，分别表示对应的边。

8.根据权利要求4所述的一种基于单张图片的室内场景建模方法，其特征在于，使用线绘制技术将图像中提取的待建模物体{O₁，...，O_n}渲染成线框图。