CN110458939A

CN110458939A - 基于视角生成的室内场景建模方法

Info

Publication number: CN110458939A
Application number: CN201910671271.2A
Authority: CN
Inventors: 杨鑫; 张肇轩; 王诚斌; 尹宝才; 朴星霖
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-15
Anticipated expiration: 2039-07-24
Also published as: CN110458939B

Abstract

本发明属于计算机视觉技术领域，尤其涉及基于视角生成的室内场景建模方法。本发明通过低分辨体素场景提供的结构辅助信息，生成多视角下的深度图进行信息补全以完成单视角场景建模过程。以视角生成的方式，深入分析了点云、体素、深度图等不同三维表达方式之间的客观联系，基于深度图生成与融合的方式进行深度图的预测并完成室内场景建模的过程。本发明的单视角建模框架，结合了单视角的彩色图片信息、低分辨率场景信息，通过深度信息补全的方式，将单视角下信息缺失的部分利用多个视角的深度图进行补全。

Description

基于视角生成的室内场景建模方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于视角生成的室内场景建模方法。

背景技术

三维场景重建是计算机视觉与图形学领域中的重点研究方向。近年来，随着硬件设备不断地更新换代，采集难度不断降低、采集精度随之提高。基于此，多个三维数据库得以建立以使用数据驱动的方式帮助三维重建。根据视角数目的不同，室内场景建模任务可分为多视角建模方式与单视角建模方式。多视角建模主要从多张深度图中归纳场景信息，并将信息进行融合以完成场景建模。单视角建模主要从单视角出发以推测出场景完整的结构信息。与直接建模方式有所区别，大量研究人员通过间接的方式完成场景建模，即通过对包含有三维信息的深度图进行预测以间接完成场景建模任务。

(1)多视角的室内场景建模技术

近年来，随着商用深度相机的出现，三维场景建模方面的研究已经获得很大进展。KinectFusion提出新的建模框架，通过深度相机获取场景的RGB-D信息，利用体素融合与ICP(迭代最近点算法)追踪算法完成建模。BundleFusion算法在前人工作的基础上进行创新，提出一种实时的端到端重建框架来完成建模任务，该算法对输入的RGB-D信息进行高效分层，同时对原有的姿态估计与帧优化策略进行改进，提高建模精度。上述建模框架不仅显著减少建模所需时间而且也获得较好的建模质量。但是，由于扫描过程中存在物体相互遮挡、光照不足及视角无法全覆盖等客观条件限制，模型存在点云缺失、噪声等问题。为解决场景建模中存在物体相互遮挡、光照不足及视角无法全覆盖等客观条件限制，模型存在点云缺失、噪声而影响质量的问题，Liyanyang提出基于数据库的场景重建算法，该算法利用3D哈里斯角落点算法选取点云边缘形变较大区域内的点作为关键点，并将关键点周围的几何信息作为对象点云特征，特征的相似度作为检索依据，将场景中不完整的点云替换为数据库点云对象，但算法很难提取形状较小、包含球面的物体的关键点。

基于RGBD数据的室内场景建模技术因结合深度相机的几何信息和彩色相机的视觉信息而得到蓬勃发展，并被广泛应用于虚拟现实、文化修复、三维地图、建筑设计、室内导航等领域。美国华盛顿大学的机器人和状态估计实验室对RGBD数据的三维建模、场景重建、室内定位等做了一系列研究。Henry在中提出了RGB-D映射技术，将视觉特征和形状配准相结合，获得较为复杂室内场景的三维模型，应用于机器人导航、远程呈现等。由于自动算法对数据的依赖，当深度数据由于遮挡、视角、量程等因素的影响不够完整的时候，往往得不到质量较好的三维模型。为此，Du等人提出了一个实时交互系统，在用户扫描场景的时候实时提示用户当前数据质量不够好需要重新扫描，保证了数据的质量，可以更加方便的获得高质量的三维场景。Fusion提出的方法更是将基于深度相机的三维建模推向前沿，吸引了更多学者的关注。它通过GPU实现了随深度相机的运动实时重建出场景的三维模型，将摄像机跟踪、场景分割、重建融合在一起。可以看出，由于单个场景数据本身的局限性，这些方法对当前场景的数据质量依赖较大。

最近，研究者开始从室内场景结构的相似性和部件的组合性出发来互相补充存在信息缺失的点云，来构建三维场景模型。Kim利用一些比较常见的室内场景目标对象，通过扫描与识别这两个阶段实现对信息缺失的点云场景完成重建。首先是信息采集与分析阶段，从扫描的点云中归纳出大概率会出现的目标与目标部件，其次，在识别阶段对扫描完成物体进行姿势的估计和位置判断，最后得到十分有效的室内场景重建算法。然而，该算法只能处理场景中具有较大重复性的目标对象并且要求最初的点云场景有较准确的分割结果。对于物体尺度偏移较大，场景内物体比较分散且目标对象重复率较低的室内场景无法进行有效的重建。基于点云的室内场景建模方法能将多视角深度数据进行配准，并用面片逼近，获得尽可能简化的模型。然而，这些算法得到的模型仍然非常密集，需要百万级别的面片表示，这给存储、渲染和后续语义上的模型编辑都带来了很大的负担。

近年来，网络上出现了越来越多共享室内场景三维模型库，现有数据驱动的室内场景研究大致可分为两类：场景中物体的识别、重建和场景物体布局优化。在对室内场景的扫描点云进行物体识别和建模上，我国较多学者做了很多优秀工作。清华大学的邵天甲及杭州师范大学的许巍巍等人提出一种交互重建算法，首先对用户采集的RGB-D图像进行自动分割，用户可以交互修改分割结果，然后通过分割的物体点云与数据库模型匹配，从而完成三维建模。南亮亮等人提出利用模型数据库来辅助不完整点云数据，通过搜索-分类的方式将场景中的点云进行分割和标识，通过模板拟合来补全点云，从而获得室内家居的三维模型。二者都充分利用大数据的优点，很好的解决了扫描点云噪声大、不完整的问题。若只有单幅二维图像，也可以充分利用带有语义标定的三维家居模型库，通过匹配模型及图像内容，实现对场景图像的几何估计及家具识别，如Fouhey提出的建模算法。然而，由于图像本身的局限性，该算法依赖于摄像机参数估计的准确性，当摄像机参数估计不准时，无法仅仅用数据库来获得准确的场景重建结果。

另一类数据驱动的室内场景建模方法将重点放在房间布局上。通过事先建立或从数据库中学习一系列布局规则，包括物体功能性、物体空间关系、房间整体布局规整等，对用户输入的家具模型集合进行布局优化。Merrell通过定义能量函数表示一个布局的好坏，使用随机优化算法来获得较好的布局。Merrell基于一系列家居设计规则，通过用户交互逐步实现室内家具的摆放。Yu从数据库中学习一系列功能、分层、空间结构规则，由用户事先标定物体关系，通过优化实现家居布局。而在Fisher提出的算法中，用户只需输入的少数几个场景模型，系统可以从模型数据库中抽取类似物体，自动合成与输入场景布局相似的场景模型。该算法的主要贡献是提出一个针对室内场景的物体公式关系的概率模型，定义了物体间的上下文关系。这些方法的主要思想都是以场景中各物体间的关系来定义场景布局的目标，通过优化方法获得场景中物体的摆放。这些方法虽然不解决重建问题，但可以为定义场景上下文提高参考价值。

(2)单视角的室内场景建模技术

多视角场景建模算法如Kinect、Bundle Fusion使用低成本的采集设备获取场景深度信息以完成场景建模。但在此类建模框架中存在三大问题，其一：深度相机采集过程易受环境的影响，导致深度信息存在误差与不准确情况出现；其二：一些特殊应用场景不具备多视角采集的条件，稀疏视角会导致场景中存在信息缺失的问题。最后，基于多视角融合的建模方式，采集与建模过程都需大量的计算资源与存储资源，并需要大量的时间进行预处理操作，对于一些对实时性要求较高的应用场景，使用多视角建模方式进行建模是不切实际的。

为了克服上述基于多视角融合建模框架的局限性，单视角场景建模成为新的研究热点。由于输入和输出信息不平衡、单一视角信息缺失严重、场景内自我遮挡等限制，单视角场景建模成为一项非常具有挑战性的工作。其面临的主要挑战表现为：(1)稀疏视角建模问题。单视角面临相当严重的自我遮挡问题，如何能对缺失的信息进行补充是需要解决的关键问题；(2)场景表达方式问题，如何能得到较高分辨率的三维场景是单视角建模的问题核心。由于单视角建模问题与人类单视角建模问题类似，许多相应算法借鉴人类处理该问题的方式即通过大量的先验知识来解决此类问题。

为解决上述问题，Li与Ruwen等提出补洞与面片优化算法来将缺失的信息进行补充。面对具有对称性的场景，Mitra与Ivan及Sung等通过分析场景几何信息，基于对称性进行补全。但此类算法均只能对部分较小区域进行补充，并且主要依赖先验知识。Shen与Vladimir等提出利用模板替换的方式来对不可见区域进行复原，即从数据库中检索出最相似的模型对场景中信息缺失的部分进行替换，Jason与Roland等利用部件变形、组装的方式进行建模。但是这些算法首先需要手动进行数据分割，其次建模的质量受限于数据库容量。

近年来越来越多的工作基于深度学习及数据驱动的方式完成单视角建模任务，如Rock、Nguyen、Sharma、Varley、Dai、Han等利用深度学习，特别是卷积神经网络进行建模并获得了良好的效果。Song等引入了端到端的深度学习网络，该网络将深度图转化为完整的三维体素场景并输出每个体素的类别标签。Dai与Ritchie将上述的工作进行了扩展，可以得到更大分辨率的建模场景。Wang等将此类工作与对抗网络进行结合使得建模结果更加逼真。Zhang等利用条件随机场模型对网络进行优化以提高建模的精确度。Garbade等采用并行神经网络结构，将深度图与语义信息作为网络的输入，用以进行模型预测。Guo等提出了视角与体素相融合的卷积神经网络，通过从二维深度图中抽取特征，进而帮助三维重建工作顺利开展。然而，所有上述工作中均是低分辨率的输出。这是因为三维体素虽然具有规则化的表达，便于使用卷积神经网络来有效的捕获全局的上下文信息，但往往受限于内存容量，建模场景分辨率并不太高。

由于在三维空间上解决单视角建模的复杂度比较高，相较于直接在三维空间进行建模，另一种思想是将三维信息投影到二维空间，选择在二维空间上对缺失的信息进行补充，即通过预测不同视角下的深度图，再通过深度图融合完成建模的过程。Daniel、Liu、Suryanarayana、Thabet、Chen等采用不同的先验与优化模型来补全深度信息。David、Gautier提出基于部件补全的方式完成深度图补全。随着生成对抗网络的出现，Zhang等提出深度端到端的模型以用于深度图补全并进而完成三维重建。上述方法虽然在单视角的深度图预测上有较好的效果，但是完全受限于像素空间，往往是使用相邻像素点的信息对缺失区域进行预测，对于缺失的区域不能很好地进行预测与补全。

发明内容

室内场景建模作为机器人进行交互的技术前提，直接决定了机器人的智能化程度。目前比较流行的建模框架使用深度传感器采集多视角深度图片，通过多视角融合完成场景建模工作。但此类建模框架不仅仅在图片采集的阶段容易受光照等环境条件的限制往往出现孔洞等信息缺失的情况，而且在视角融合阶段需较长的时间成本与计算资源来完成融合过程，与此同时，为满足交互的要求在建模完成后还需要进一步优化的过程。在实际的应用场景中，机器人往往不具备多视角的采集条件，并且对实时性有较高的要求。因此，能否在稀疏视角条件下对场景进行精确建模成为机器人能否完成这些任务的关键。

单视角建模的挑战为如何解决视角稀疏所导致的大量信息缺失，即单一视角采集信息的不完整与场景内物体自我遮挡。如何能有效并准确的推测出缺失的部分是单视角建模算法重点解决的问题。传统的基于几何场景分析的算法利用对称性原理对缺失的部分进行预测，基于数据库替换的算法通过特征匹配的方式在数据库中寻找相似模型进行替换建模，但传统方法的建模精度较差。随着深度学习与大数据的发展，基于数据驱动的方式为单视角建模提供了新的解决思路，最新算法利用大量三维场景数据作为先验知识以帮助预测与补全场景中缺失区域，但此类算法往往受限于分辨率的限制，只能对场景结构进行描述而对于细节的刻画不够清晰。因此，专利为解决上述问题提出了单视角建模框架，在视角生成算法生成场景的辅助下，生成多个不同视角的深度图，再通过多视角融合的方式完成场景建模。

本发明的技术方案：

本专利提出的建模框架输入为单视角彩色图片，彩色图片首先通过低分辨率场景生成结构清晰的点云场景，再通过预处理方式生成存在信息缺失的点云场景；紧接着，通过选择任一随机视角，两个点云场景经过投影渲染算法得到不同视角下的低分辨率场景与缺失点云场景的深度图；最后，将两张深度图送入视角生成网络生成任一视角下信息完整的深度图；重复上述过程，生成多张不同视角下的深度图，并将多视角深度图融合完成建模过程。本论文提出的建模框架基于端到端的方式进行预测，建模框架由三个模块构成，分别为(1)预处理模块；(2)低分辨率场景生成模块；(3)多视角生成模块；其中，预处理模块用于将单视角彩色图片生成相应初始的点云场景；低分辨率场景生成模块提供场景结构信息；多视角生成模块在低分辨场景的辅助下，生成随机视角下较为完整的深度图。步骤如下：

基于视角生成的室内场景建模方法，该室内场景建模方法是由多视角深度图生成模块和多视角点云融合模块完成的，步骤如下：

(1)多视角深度图生成模块

为生成多视角点云融合模块所需的属于不同视角的点云，需要事先生成与多视角点云相对应的多视角深度图；首先，将初始彩色图像输入至单视角体素重建网络，得到完整但粗糙的体素场景模型；其次，将初始彩色图像输入至单视角点云重建网络，得到精度高但不完整的点云场景模型；之后，在场景模型中心附近随机选择6个视角，分别对体素场景和点云场景进行投影，得到体素深度图和点云深度图；最后，分别将上述6个深度图对输入至深度图补全网络，得到6张补全后的完整点云深度图，为下一步的多视角点云融合模块提供输入；

(1.1)单视角体素重建网络

单视角体素重建网络由布局预测网络与目标预测网络构成；

布局预测网络使用基于跳连接的自编码网络，其中，自编码器由6个卷积块构成，每个卷积块由2个卷积层组成；解码器使用5个上采样层；布局预测网络使用端到端的方式来进行单独训练，并使用基于L1损失的目标函数对网络进行训练；自编码器部分将不同分辨率的单张彩色图片作为输入，经过三个自编码器的卷积操作，得到不同类别的特征，通过特征融合与级联的方式彩色图片的低维度特征被映射到高维度特征空间；在映射的过程中，每个卷积层的特征通道数增加，分辨率逐渐降低；之后通过解码器预测出场景中对象三维模型，在解码器的上采样过程种，每个上采样层不断减少通道的数目，同时不断提高输出的分辨率；

目标预测网络基于体素对场景目标进行表达，体素的分辨率为32的三次方；目标预测网络的三个编码器分别为高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器；其中，高分辨率特征编码器与低分辨率特征编码器使用卷积神经网络将原始图片进行高维度特征提取，并且在逐层卷积之后使用ROI下采样操作进行显著性特征提取；具体的说：高分辨率特征编码器由ResNet18模型的前3个残差块、1个ROI下采样层和2个包含300个单元的全连接层组成；低分辨率特征编码器由ResNet18模型的前4个残差块与2个包含300个单元的全连接层组成；目标对象特征编码器由3个拥有50个单元的全连接层构成；高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器得到的特征经过连接后形成高维度特征向量，高维度特征向量最终通过2个包含300个单元的全连接层进行计算得到高纬度最终特征；目标预测网络的解码器使用5个上卷积层进行场景空间的体素建模，建模的精度为32的三次方；解码器将编码器得到的高纬度最终特征进行上采样，得到最终的完整但精度较低的体素场景模型；

(1.2)单视角点云重建网络

单视角点云重建网络由粗精度预测网络和精细化预测网络组成；

粗精度预测网络基于VGG16网络结构，整个网络由5个卷积层、1个全连接层及1个上采样层组成，其中，前6层的网络结构与VGG16网络相同，最后的上采样层输出的分辨率为初始输入的一半；粗精度预测网络将初始的彩色图像作为输入，经过卷积层的特征提取以及全连接层的特征映射，提取初始彩色图像的特征信息，并将其映射至高维度空间，再将特征信息进行上采样得到分辨率为输入分辨率一半的粗精度预测特征图；

精细化预测网络由5个卷积层及1个上采样层构成，第一个卷积层的卷积核大小为9x9，其余4层的卷积核大小为5x5；精细化预测网络的输入为初始的彩色图像以及粗精度预测网络输出的粗精度预测特征图，将上述两张图串联至一起，输入至精细化预测网络，经过5个卷积层的特征提取操作以及最后的上采样操作，最终的到精细化的预测图，对此预测图直接进行反投影操作，即得到初始彩色图像所对应的高精度但不完整的点云场景模型；

(1.3)随机视角下的场景投影

以点云场景模型为中心，建立三维坐标系，点云的正朝向为坐标系x轴正方向，点云的上朝向为坐标系z轴的正方向；将此三维坐标系转化为球坐标系，随机选取6个(φ，θ)对，组成6个不同的随机视角(r，φ，θ)，其中r根据点云规模不同选取适当的半径值，φ∈(0,90°)代表天顶角，θ∈(-90°，90°)代表方位角，相机正朝向指向坐标系原点，相机上朝向与z轴正方向一致或垂直于相机正朝向并指向z轴正方向；将体素场景模型与点云场景模型分别在6个视角下进行投影，即得到6对体素、点云深度图对；

(1.4)深度图补全网络

深度补全网络由基于跳连接的自编码器和解码器组成，其中，自编码器由两个分支组成，均由7个局部卷积层组成，第一个局部卷积层的卷积核大小为7x7，第二与第三层为5x5，其余均为3x3；第一个自编码器分支输入点云与体素深度图对以及输入深度图所对应的掩膜图，掩膜图分辨率与输入深度图分辨率一致，其中每个像素点有(0,1)两种取值，掩膜图中值为0的区域表示输入深度图的相对应区域没有信息，需要被补全，掩膜图中值为1的区域表示输入深度图的相对应区域完整不需要被补全，将上述点云与体素深度图对及相应的掩膜图输入至编码器的第一个分支，通过局部卷积的操作，最终得到输入深度图的高维度的特征表达；第二个自编码器分支输入初始彩色图像，在同样的局部卷积操作后，得到了彩色图像的高维特征表达，此时，将此二个高维特征表达串联至一起，一同输入至解码器中；

解码器由7个局部卷积块组成，每个局部卷积块均由上采样层和卷积核大小为1x1的局部卷积层构成；将上述串联至一起的特征信息输入至解码器中，经过逐层的上采样以及局部卷积操作，最终解码器输出补全后的点云深度图；对6对随机视角下投影出的体素、点云深度图对分别进行上述补全操作，即得到6张与初始视角相邻的完整高精度点云深度图；

(2)多视角点云融合模块

首先，分别对6张补全后的深度图依据其相应的相机视角反投影为点云模型；其次，由于视角生成的统一性，6个分属于不同深度图的点云中点的坐标也被反投影至同一世界坐标系下；最后，直接将上述6个点云中的所有点提取出来，去除掉相互之间距离小于1-3毫米的点后，将剩余的点重新表达为1个点云，即为算法最终的点云重建结果。

单视角体素重建网络的损失函数由四部分构成：

(2.1)场景目标对象损失

目标预测网络的最终输出为场景中目标对象的体素网格，是由解码器将高维度向量映射到体素空间得到的；场景目标对象损失函数设定为预测体素与真值体素之间的交叉熵损失以衡量网络预测准确度，设预测得出的场景对象为真值体素为V，K为场景体素表达中所有体素块的数量，表示编号为k的预测体素块，V_k表示编号为k的真值体素块，k从1取到K，则损失函数表示为：

(2.2)旋转与尺度缩放损失

目标预测网络对目标对象进行方向性与尺度的约束，目标对象的旋转度以单位正则化四元数来表征；类比于分类任务，将旋转向量分为24类并预测每一类k_d的概率，设k为容器的真值，损失函数设定为负的似然函数，损失函数表示为：

(2.3)目标对象的平移与尺度缩放损失函数表示如下：

其中，t与c分别代表真值的选择平移系数，与表示预测的结构；

(2.4)场景预测模块损失

布局预测网络使用L1目标函数来进行约束，其中代表预测的场景布局，HH代表真实的场景的布局，损失函数表示如下：

单视角建模网络在SUNCG数据集上进行训练，数据集中的标注项包括目标对象包围盒与三维结构信息；单视角体素建模网络使用前景概率f代表包围盒中的对象属于前景与背景的概率，将包围盒分为前景与背景，用β⁺与β^-分别代表前景与背景的包围盒集合，总体目标函数表示如下：

∑_b∈β+(L_V+L_q+L_t+L_c-ln(f))+∑_b∈β-ln(1-f) (6)

单视角建模网络使用ResNet18进行模型参数初始化；ResNet18模型在ILSVRC数据集上进行了预训练。

局部卷积操作指在卷积神经网络中卷积核对只针对某些特定区域进行卷积操作，需要卷积的区域由掩膜矩阵来确定，公式如下表示：

其中，X为在目前卷积层中的输入特征图，x′表示对输入X进行卷积操作后得到的特征值，W为卷积核的权重矩阵，b为相应的偏置值；M代表相应的二值掩膜矩阵；⊙代表逐个像素的乘积，I代表与掩膜矩阵尺寸相同且值全为1的单位矩阵，公式(7)中显示：卷积操作只在掩膜矩阵中值为1的部分进行操作；

在每一个部分卷积操作之后，掩膜矩阵更新的方式如下：

其中，m′表示掩膜矩阵中与特征值x′相对应的掩膜值；当卷积过程中当特征图中的某一个像素点存在有效值时，掩膜矩阵中该位置的数值就更新为1。

深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

(a)像素预测损失是对预测精确度的度量，由两个损失组成，分别是缺失区域的损失与有效区域的损失，损失函数表示如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

其中，M矩阵中值为0的区域表示所输入的点云深度图中对应的区域需要被补全，深度图补全网络的输出为I_out，深度图的真值为I_gt；其中，L_hole代表缺失区域的损失，即代表缺失区域的预测精确度，L_valid代表非缺失区域的损失，代表富含信息区域的预测精确度，其中两项损失均为L1约束项；

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt) (12)

其中，I_comp表示I_out与I_gt组合后的深度图像，表示使用VGG16网络对I进行特征提取操作后第n层网络所输出的特征表达，感知损失函数L_perceptual通过计算I_comp和I_out的特征表达与I_gt的特征表达之间的L1距离，衡量所生成的深度图预测结果在更高语义层次上的准确程度；

(c)风格损失的损失函数通过约束每个特征图之间的自相关矩阵以达到预测图片与真值之间的风格的一致性；风格损失定义为两部分，由如下两个损失函数组成：

其中，表示I_out对应的风格损失函数，表示I_comp对应的风格损失函数，K_n是一个卷积层的归一化参数，其值为1/C_nH_nW_n；C_n、H_n、W_n分别表示VGG16网络中第n层网络的特征图通道数量、特征图的高度及特征图的宽度；

(d)平滑度损失函数L_tv由如下公式表示：

其中，表示I_comp中坐标为(i，j)的像素点的值，P集合表示对输入点云深度图的缺失区域进行半径为1的扩张后得到的像素点的集合；

总的损失函数表示如下：

其中的超参数α、β、γ、δ、ε需要根据任务的不同需求进行验证得到。

步骤(2)中最终重建出的点云重建结果的质量，由两个指标进行评估，分别是倒角距离和点云完整度，具体如下：

(5.1)倒角距离CD

倒角距离用来衡量两个点云集合之间的相近程度，通过计算两个点云之间的距离实现，具体公式如下：

其中S₁，S₂表示两个点集，x，y表示点集中的任一点，公式通过分别计算S₁点集中所有点到S₂点集的最短距离之和以及S₂点集中所有点到S₁点集的最短距离之和，衡量两个点集之间的相近程度，倒角距离越小代表两个点集越接近；

(5.2)点云完整度

点云完整度用来衡量一个点云相比于另一个点云的完整程度，通过计算给定阈值下的点云重合百分比得到，具体公式如下：

其中，P代表本方法重建出的点云，P_GT代表点云真值，C_r(P，P_GT)代表P相比于P_GT的完整程度，d(x，P)代表点x到点集P的最小距离，l代表阈值，C_r(P，P_GT)的数值越大，代表两个点云的重合度越高，也代表预测的越准确。

ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均可得到16+4+1共21个特征值。

本发明的有益效果：

(1)基于视角生成的方式进行单视角场景建模。通过低分辨体素场景提供的结构辅助信息，生成多视角下的深度图进行信息补全以完成单视角场景建模过程。

(2)以视角生成的方式，深入分析了点云、体素、深度图等不同三维表达方式之间的客观联系，基于深度图生成与融合的方式进行深度图的预测并完成室内场景建模的过程。

(3)本发明的单视角建模框架，结合了单视角的彩色图片信息、低分辨率场景信息，通过深度信息补全的方式，将单视角下信息缺失的部分利用多个视角的深度图进行补全。

附图说明

图1是单视角建模流程图；图中将单视角彩色图片作为输入，经过视角生成模块生成多个随机视角并利用视角融合模块将相邻视角进行融合以完成场景重建。

图2是单视角建模框架实验效果图；第一列(a-1)至(a-4)为单个视角的输入，第二列(b-1)至(b-4)为单个视角经过预处理之后得到的不完整点云场景，第三列(c-1)至(c-4)为不完整点云场景中缺失区域的放大图，第四列(d-1)至(d-4)为重建场景，即通过融合生成6个点云场景完成的重建效果。第五列(e-1)至(e-4)为补全的效果，即对于初始场景中缺失部分的补全。第6列(f-1)至(f-4)为真值，为6个深度图融合生成的点云场景。

图3是单视角室内场景建模对比实验图；其中，(A)为第一个场景的彩色图片，(B)为第二个场景的彩色图片；第一列(a-1)至(a-4)、第二列(b-1)至(b-4)为第一个场景下，不同建模算法所创建场景的效果图，其中第二列(b-1)至(b-4)为第一列(a-1)至(a-4)黑框区域的局部放大图。第三列(c-1)至(c-4)、第四列(d-1)至(d-4)为第二个场景下，不同算法的建模效果图，其中，第三列(c-1)至(c-4)为总体建模效果图，第四列(d-1)至(d-4)为第三列(c-1)至(c-4)中黑框区域的局部放大图

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

基于视角生成的室内场景建模方法，通过两个模块实现，步骤如下：

(1)多视角深度图生成模块

(1.1)单视角体素重建网络

单视角体素重建网络由布局预测网络与目标预测网络构成；

(1.2)单视角点云重建网络

(1.3)随机视角下的场景投影

以点云场景模型为中心，建立三维坐标系，点云的正朝向为坐标系x轴正方向，点云的上朝向为坐标系z轴的正方向；将此三维坐标系转化为球坐标系，随机选取6个(φ，θ)对，组成6个不同的随机视角(r，φ，θ)，其中r根据点云规模不同选取适当的半径值，φ∈(0，90°)代表天顶角，θ∈(-90°，90°)代表方位角，相机正朝向指向坐标系原点，相机上朝向与z轴正方向一致或垂直于相机正朝向并指向z轴正方向；将体素场景模型与点云场景模型分别在6个视角下进行投影，即得到6对体素、点云深度图对；

(1.4)深度图补全网络

(2)多视角点云融合模块

(3)实验设置与实验过程

(3.1)数据集的生成

本发明提出的多视角深度图生成模块中网络部分的训练所需的数据包括彩色图像及其对应的点云模型真值、体素模型真值、深度图真值。为此，本发明使用SUNCG数据集作为原始数据，通过控制不同的相机视角序列，渲染出了20000张彩色图像及其对应的深度图像；同时，通过网格模型至点云模型以及体素模型的转换函数，获得了上述20000张彩色图像所对应的5000个局部场景的点云模型真值以及体素模型真值；深度补全网络训练过程中所需的掩膜图可根据不完整的点云深度图直接计算得到。

(3.2)实验过程

首先分别训练多视角深度图生成模块中的单视角体素重建网络及单视角点云重建网络，体素重建网络的训练损失函数已在权利要求书中写清，点云重建网络的损失函数定义为输出预测图与深度图真值的L1损失，两个网络训练的迭代次数均为50000次，网络的学习率均设定为0.0000002，每次训练过程中送入2组图片作为训练集的输入。网络在Pytorch平台上进行网络结构的搭建，使用python语言进行代码的编写，在Nvidia TitanV显卡上进行网络训练过程。其次，训练深度图补全网络，其损失函数已在权利要求书中表明，网络训练的迭代次数均为50000次，网络的学习率设定为0.0000005，每次训练过程中送入8组图片作为训练集的输入。网络在Pytorch平台上进行网络结构的搭建，使用python语言进行代码的编写，在Nvidia TitanV显卡上进行网络训练过程。

在测试阶段，任选测试集中的一张彩色图片，首先将其输入至训练好的单视角体素重建网络及单视角点云重建网络，预测出其体素场景模型以及点云场景模型；其次，本发明取r为2.5，并依照权利要求书所表明的随机生成了6个相机视角，并将上述两个三维模型在此6个视角下进行投影，得到了6对体素与点云深度图对；之后，分别将6对深度图输入至深度图补全网络，得到6张补全后完整的点云深度图；最终，依据6个相机视角将补全后的深度图重新投影为6个点云，随机选定一个点云作为初始点云，依照点与点云间的距离是否小于2毫米为标准，将剩余5个点云中的所有点依次合并入初始点云中，若点与点云间的距离小于2毫米，则将此点合并至点云中，否则跳过该点，继续进行合并操作，待合并操作结束后，即可得到基于当前输入彩色图像重建出的点云场景模型。

为了衡量所重建出模型的质量，本发明以倒角距离及点云完整度为标准，计算了重建结果与点云真值之间的差距及完整百分比，其中，点云完整度的阈值分别使用了0.02，0.04，0.06，0.08，0.10。

Claims

1.基于视角生成的室内场景建模方法，其特征在于，该室内场景建模方法是由多视角深度图生成模块和多视角点云融合模块完成的，步骤如下：

(1)多视角深度图生成模块

(1.1)单视角体素重建网络

单视角体素重建网络由布局预测网络与目标预测网络构成；

(1.2)单视角点云重建网络

(1.3)随机视角下的场景投影

以点云场景模型为中心，建立三维坐标系，点云的正朝向为坐标系x轴正方向，点云的上朝向为坐标系z轴的正方向；将此三维坐标系转化为球坐标系，随机选取6个(φ，θ)对，组成6个不同的随机视角(r，φ，θ)，其中r根据点云规模不同选取适当的半径值，φ∈(0,90°)代表天顶角，θ∈(-90°,90°)代表方位角，相机正朝向指向坐标系原点，相机上朝向与z轴正方向一致或垂直于相机正朝向并指向z轴正方向；将体素场景模型与点云场景模型分别在6个视角下进行投影，即得到6对体素、点云深度图对；

(1.4)深度图补全网络

(2)多视角点云融合模块

2.根据权利要求1所述的基于视角生成的室内场景建模方法，其特征在于，单视角体素重建网络的损失函数由四部分构成：

(2.1)场景目标对象损失

(2.2)旋转与尺度缩放损失

(2.3)目标对象的平移与尺度缩放损失函数表示如下：

(2.4)场景预测模块损失

3.根据权利要求1或2所述的基于视角生成的室内场景建模方法，其特征在于，局部卷积操作指在卷积神经网络中卷积核对只针对某些特定区域进行卷积操作，需要卷积的区域由掩膜矩阵来确定，公式如下表示：

其中，X为在目前卷积层中的输入特征图，x'表示对输入X进行卷积操作后得到的特征值，W为卷积核的权重矩阵，b为相应的偏置值；M代表相应的二值掩膜矩阵；⊙代表逐个像素的乘积，I代表与掩膜矩阵尺寸相同且值全为1的单位矩阵，公式(7)中显示：卷积操作只在掩膜矩阵中值为1的部分进行操作；

在每一个部分卷积操作之后，掩膜矩阵更新的方式如下：

其中，m'表示掩膜矩阵中与特征值x'相对应的掩膜值；当卷积过程中当特征图中的某一个像素点存在有效值时，掩膜矩阵中该位置的数值就更新为1。

4.根据权利要求1或2所述的基于视角生成的室内场景建模方法，其特征在于，深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt)(12)

(d)平滑度损失函数L_tv由如下公式表示：

总的损失函数表示如下：

5.根据权利要求3所述的基于视角生成的室内场景建模方法，其特征在于，深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt)(12)

(d)平滑度损失函数L_tv由如下公式表示：

总的损失函数表示如下：

6.根据权利要求1、2或5所述的基于视角生成的室内场景建模方法，其特征在于，步骤(2)中最终重建出的点云重建结果的质量，由两个指标进行评估，分别是倒角距离和点云完整度，具体如下：

(5.1)倒角距离CD

其中S₁，S₂表示两个点集，x,y表示点集中的任一点，公式通过分别计算S₁点集中所有点到S₂点集的最短距离之和以及S₂点集中所有点到S₁点集的最短距离之和，衡量两个点集之间的相近程度，倒角距离越小代表两个点集越接近；

(5.2)点云完整度

其中,P代表本方法重建出的点云，P_GT代表点云真值，C_r(P,P_GT)代表P相比于P_GT的完整程度，d(x,P)代表点x到点集P的最小距离，l代表阈值，C_r(P，P_GT)的数值越大，代表两个点云的重合度越高，也代表预测的越准确。

7.根据权利要求3所述的基于视角生成的室内场景建模方法，其特征在于，步骤(2)中最终重建出的点云重建结果的质量，由两个指标进行评估，分别是倒角距离和点云完整度，具体如下：

(5.1)倒角距离CD

(5.2)点云完整度

8.根据权利要求4所述的基于视角生成的室内场景建模方法，其特征在于，步骤(2)中最终重建出的点云重建结果的质量，由两个指标进行评估，分别是倒角距离和点云完整度，具体如下：

(5.1)倒角距离CD

(5.2)点云完整度

9.根据权利要求1、2、5、7或8所述的基于视角生成的室内场景建模方法，其特征在于，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均可得到16+4+1共21个特征值。

10.根据权利要求6所述的基于视角生成的室内场景建模方法，其特征在于，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均可得到16+4+1共21个特征值。