CN109360232A

CN109360232A - 基于条件生成对抗网络的室内场景布局估计方法和装置

Info

Publication number: CN109360232A
Application number: CN201811049134.7A
Authority: CN
Inventors: 刘天亮; 曹旦旦; 戴修斌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2019-02-19
Anticipated expiration: 2038-09-10
Also published as: CN109360232B

Abstract

本发明公开了一种基于条件生成对抗网络的室内场景布局估计方法和装置，该方法包括：运用训练集训练条件生成对抗网络，将待测室内图像输入至训练完成的条件生成对抗网络，预测生成与输入图像尺寸相同的布局边缘图；估计待测室内图像的消失点，从每个消失点等角度间隔引出射线，生成若干扇形区域；根据平均边缘强度最大准则确定采样扇形区域；对预测布局边缘图加高斯模糊，然后对采样扇形区域进行采样生成布局候选项；选出与预测布局边缘图最为相似的空间布局作为最终的布局估计结果。本发明为生成场景布局边界图提供更加完整的原始信息，无需显式假设数据的参数分布，能提高布局估计的准确率，在室内场景理解和三维重建任务中具有重要的应用价值。

Description

基于条件生成对抗网络的室内场景布局估计方法和装置

技术领域

本发明涉及一种基于条件生成对抗网络(cGAN)的室内场景布局估计方法和装置，属于图像场景理解技术领域。

背景技术

图像场景理解一直都是计算机视觉领域的研究热点，室内场景布局估计作为其初始也是关键单元，基本目标是根据给定的室内场景图像恢复出场景内房间的布局结构。用一个3维立体盒子模拟室内空间布局，从中找到墙-地板、墙-墙、墙-天花板的边界，然而，因为场景内部存在大量的杂物，例如家具、个人等，都会对房间的布局边界造成遮挡，使得布局的恢复变得极具挑战性。准确的房间布局估计需要计算机来从总体视角来理解房间，而不仅仅依赖于局部线索。且完整的原始图像信息和学习能力强大且简单的网络框架能够使计算机更好地理解室内场景的空间结构布局。

近年来，许多的场景布局估计研究工作中致力于提出有效的方法进行布局估计。文献[Hedau V,Hoiem D,Forsyth D.Recovering the spatial layout of clutteredrooms.International Conference on Computer Vision.2009:1849-1856.]提出将房间布局边界参数化为3D盒模型结构，基于估计的消失点生成布局候选项，提取线段、几何上下文等特征进行学习。文献[Lee D C,Hebert M,Kanade T.Geometric reasoning forsingle image structure recovery.Computer Vision and Pattern Recognition.2009:2136-2143.]在此基础之上又引入方向图特征，通过方向图用最合适的布局来评估的布局假设，其中方向图是由线段切割计算出来的。文献[Schwing A G,Hazan T,Pollefeys M,etal.Efficient structured prediction for 3D indoor scene understanding.IEEEConference on Computer Vision and Pattern Recognition.2012:2815-2822.]提出一种新的参数化方法，将房间布局边界参数化为由消失点引出的成对射线之间的夹角，问题转化为四个离散随机变量的基础预测，对目标函数采用新方法求解。随着卷积神经网络狂潮的掀起，文献[Mallya A,Lazebnik S.Learning Informative Edge Maps for IndoorScene Layout Prediction.International Conference on Computer Vision.2015:936-944.]对场景布局的边界进行预测，提取新的边界特征。在前面研究的基础之上，本发明人在文献专利申请CN201710274710中提出以VGG-16为原型的全卷积神经网络预测信息化边界图，并将其与布局类别信息融合生成全局特征，已进行对布局候选项的粗选取，再将线段成员信息、几何上下文信息、法向量和深度经几何积分图像形成区域级特征，以对布局候选项进行进一步选取。但该方法从特征提取和模型求解这两方面进行优化，所涉及的特征都是从既定场景布局候选项的划分区域内逐个提取拼接而成，多个特征的提取导致网络模型复杂度高，模型参数求解困难。

发明内容

发明目的：为了解决现有的技术问题，本发明提供一种基于条件生成对抗网络的室内场景布局估计方法和装置，以准确估计室内场景的空间布局，得到房间三维结构。

技术方案：为实现上述目的，本发明采用以下技术方案：

一种基于条件生成对抗网络的室内场景布局估计方法，包括以下步骤：

(1)运用训练集训练条件生成对抗网络，训练集中样本的格式为AB模式，即室内场景图像和其对应的边缘图并行排列，所述条件生成对抗网络包括生成网络和判别网络，室内场景图像作为生成网络的输入，由生成网络生成的室内场景图像对应的边缘图作为判别网络的输入；所述生成网络输出的边缘图与输入的室内场景图像尺寸相同；

(2)将待测的室内场景图像输入训练完成的条件生成对抗网络，得到预测布局边缘图；

(3)估计待测的室内场景图像中的位于垂直方向和水平方向上的三个消失点，对于每个消失点等角度间隔的引出射线生成若干扇形区域；

(4)对于每个消失点，根据预测布局边缘图中对应扇形区域的平均边缘强度最大准则和消失点类型选择一或两个扇形区域作为采样扇形区域；

(5)对预测布局边缘图加高斯模糊，然后对采样扇形区域进行采样，由在采样扇形区域中从三个消失点引出的射线两两相交生成一系列布局候选项；

(6)计算各布局候选项与预测布局边缘图的相似度，并选出与预测布局边缘图最为相似的布局估计作为最终的布局估计结果。

作为优选，所述条件生成对抗网络中生成网络的反卷积部分由两个分支组成，第一个分支包括八层反卷积层，用于生成预测布局边缘图，第二个分支包括两层反卷积层，用于监督第一个分支工作，由第一个分支的第四层的输出结果经过两层反卷积后将输出结果大小设置成与预测布局边缘图的大小一致，然后两个结果一同输出。

作为优选，所述条件生成对抗网络中生成网络的损失函数为：

其中，

其中，G^*表示生成网络的损失函数，表示最大化判别网络D中输入数据分布与真实数据分布之间的差异，最小化生成网络G的输出数据分布与真实数据分布之间的差异。x表示输入的室内场景图像，z表示输入的随机噪声，x～p_x(x)表示x的数据分布，x,y～p_data(x,y)表示x和y的联合数据分布，z～p_z(z)表示z的数据分布，G(x,z)表示生成网络的输出，y表示对应于x的真实边缘图，V_cGAN(G,D)表示对抗损失函数，E表示求归一化期望值，V_L2(G)表示L2损失函数，λ表示L2损失函数的权重，||·||符号表示取绝对值运算，V_L2(G_d4)表示生成网络中监督部分的L2损失函数，η表示该网络部分的L2损失的权重，G_d4表示生成网络中反卷积部分第四层的输出结果通过两层反卷积网络后的输出结果。

作为优选，步骤(3)中消失点的估计包括：

(3.1)检测出室内场景图像中满足一定长度要求的线段，将检测出的线段集合记为{l_i}，1≤i≤n，n为线段的数目，P_k为{l_i}中线段两两相交的形成第K个交点，即为候选消失点，1≤k≤K，K为{l_i}中线段两两相交的形成的交点数目，则第i个线段l_i对P_k的得分贡献为：

其中，α表示l_i与P_k和l_i中点的连线之间的夹角，σ为鲁棒性阈值，表示线段的长度；

(3.2)计算每条线段对候选消失点P_k的投票得分，得到P_k的贡献值

(3.3)对所有K个候选消失点的投票得分做统计，其中得分最高的为竖直方向的消失点VP₁，然后基于消失点的正交性准则：＜VP₁,VP₂＞＝0、＜VP₁,VP₃＞＝0、＜VP₂,VP₃＞＝0，获得投票得分最高的一组消失点为水平方向的远消失点VP₂与水平方向的近消失点VP₃。

作为优选，步骤(4)中按照以下两个标准选择固定数目的采样扇形区域：

扇区的总数记为H，每个扇区的平均边缘强度记为d_i，i＝1,2,3......H，定义d₀＝0和d_H+1＝0，只有同时满足以下两个条件时，才选择第i个扇区：

(1)d_i＞d_i+1，and，d_i＞d_i-1

(2)d_i-d_i+1＞T，or，d_i-d_i-1＞T

其中，T为设定的阈值，对于垂直消失点选择一个扇形区域，对于水平消失点选择两个扇形区域。

作为优选，步骤(6)，采用如下公式计算布局候选项与预测布局边缘图的相似度：

其中，m_i表示第i个布局候选项，M是条件生成对抗网络输出的预测布局边缘图，||·||_F表示弗罗贝尼乌斯规范，μ为设定的比重值。

预测布局边缘图作为优选，通过水平旋转扩大训练数据集对条件生成对抗网络进行训练，获得高分辨率的预测布局边缘图，用于后续的最优布局估计的选择。

本发明另一方面提供的一种基于条件生成对抗网络的室内场景布局估计装置，包括：

网络训练模块，用于运用训练集训练条件生成对抗网络，训练集中样本的格式为AB模式，即室内场景图像和其对应的边缘图并行排列，所述条件生成对抗网络包括生成网络和判别网络，室内场景图像作为生成网络的输入，由生成网络生成的室内场景图像对应的边缘图作为判别网络的输入；所述生成网络输出的边缘图与输入的室内场景图像尺寸相同；

预测布局边缘图生成模块，用于将待测的室内场景图像输入训练完成的条件生成对抗网络，得到预测布局边缘图；

消失点估计模块，用于估计待测的室内场景图像中的位于垂直方向和水平方向上的三个消失点，对于每个消失点等角度间隔的引出射线生成若干扇形区域；

采样区域选择模块，用于对于每个消失点，根据预测布局边缘图中对应扇形区域的平均边缘强度最大准则和消失点类型选择一或两个扇形区域作为采样扇形区域；

布局候选项生成模块，用于对预测布局边缘图加高斯模糊，然后对采样扇形区域进行采样，由在采样扇形区域中从三个消失点引出的射线两两相交生成一系列布局候选项；

以及，布局估计确定模块，用于计算各布局候选项与预测布局边缘图的相似度，并选出与预测布局边缘图最为相似的布局估计作为最终的布局估计结果。

本发明另一方面提供的一种基于条件生成对抗网络的室内场景布局估计装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于条件生成对抗网络的室内场景图像布局估计方法。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明方法利用条件生成对抗网络生成与原始图像大小相同的高分辨布局边缘图，该方法不对输入数据进行任何的显示参数分布假设，为生成布局边缘图提供了更加完整的原始信息。且预测布局边缘图尺寸大小与原始图像大小相同，无需经过插值运算增大预测布局边缘图的尺寸，从而避免边界线因经插值运算而变得模糊，使其边界线表达的信息不准确。本发明方法预测得到的边缘图的边界线的噪音小，线条更加精细，可以使边缘图表达的信息更加准确。

2)本发明方法中还针对生成布局边缘图的网络部分设置监督网络分支，防止由于边缘图的复杂度低，而导致的生成网络能力冗余，实验结果表明该监督分支的作用对获得预期的布局边缘图估计结果有显著效果。

3)本发明的布局估计方法得到的布局边缘图中的边界线较细，对布局边界加高斯模糊，以使对采样扇区进行采样时采样线可以与布局边界线更好地重合，从而得到更加精确的布局候选项。

4)本发明方法可以准确地根据图像预测房间的空间布局，得到房间三维结构，这得益于生成式对抗网络强大的自学习能力和可以保证原始数据的性的特点；对于房间内有遮挡的情况，仍可以较为准确地做出预测；本发明的该实验网络系统广泛化性能较好，可以用于预测各种复杂的室内场景。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例采用的条件生成对抗网络的模型。

图3是本发明实施例采用的条件生成对抗网络中生成网络配置示意图。

图4是本发明实施例中获得最佳采样扇形区域的示例图；其中，图(a)表示室内场景图像；图(b)表示室内场景图像对应的预测布局边缘图，标记部分为其中的一条边界线；图(c)表示对每一个扇形区域的平均边界强度进行统计得到的直方图；图(d)表示平均边缘强度最大的两个扇形区域被选择。

图5是本发明实施例中布局候选项生成示例图；其中，粗的实线为预测布局边缘图的边界线，细的虚线为采样扇形区域的边界线，细的实线为布局候选项的边界线；图(a)表示对竖直方向得到的采样扇形区域进行均匀采样，得到垂直方向边界线；图(b)表示对远水平消失点得到的两个采样扇形区域进行采样，得到两条水平方向的边界线；图(c)表示由近水平消失点引出两条射线，与图(a)、图(b)生成的边界线相互正交，即为边界图中的边界线，从而生成布局候选项。

具体实施方式

下面结合附图以及具体实施例对本发明的技术方案做进一步的详细说明：

本发明实施例提供的一种基于条件生成对抗网络的室内场景布局估计方法，首先利用条件生成对抗网络对输入图像的每一个局部区域进行分类，从而得到一个高分辨率的预测布局边缘图，再根据预测布局边缘图从通过消失点估计得到的一系列扇形区域中选择采样扇区，然后对预测布局边缘图加高斯模糊，以便其与扇形区域中通过消失点生成的最准确的采样线很好的重合，从而得到最精确的布局估计结果。流程图如图1所示，具体包括如下步骤：

步骤S1，提取训练集内的训练样本来训练条件生成对抗网络；其中训练样本为室内场景图像及其对应的边缘图，室内场景图像及其对应的边缘图分别为生成网络的输入和判别网络的输入，其中判别网络的输入有生成网络输出的预测布局边缘图和室内场景图像组成的消极样本以及真实边缘图和室内场景图像组成的积极样本。

条件生成对抗网络不仅可以学习到输入图像与输出图像之间的映射关系，还可以自适应学习得到它们之间的一个损失函数，用于训练这个网络，以至于生成网络输出的结果可以无限逼近真实数据的分布，使判别网络的输出为0.5，即无法判别输入图像的真伪，达到纳什平衡。

训练一个条件生成对抗网络的目的是估计室内场景图像的边缘图。边缘图是概率图，代表了最适合房间的3维立体结构的房间边缘，即墙与墙之间，墙壁和天花板之间，墙壁和地板之间的边缘。

步骤S1中具体包括：

S1.1，制作训练集，为扩展训练样本，将训练样本通过水平翻转，其数目增大至原来的二倍，并将样本的数据格式设定为室内场景图像与预期的边界图并列的AB模式。

S1.2，设定生成网络的模型结构，条件生成对抗网络中生成网络部分由两个分支组成，第一个分支包括八层反卷积层，用于生成预测布局边缘图，第二个分支包括两层反卷积层，用于监督第一个分支工作，由第一个分支的第四层的输出结果经过两层反卷积后将输出结果大小设置成与预测布局边缘图的大小一致，然后两个结果一同输出。

整个条件生成对抗网络模型如图2所示，其中生成网络部分配置如图3所示。条件生成对抗网络将室内场景图像作为输入，并使预测布局边缘图在最后一层产生。根据它们的功能，整个网络可以看作两部分：边缘图生成部分和判别部分。用于布局边缘图生成的生成网络部分可以自动学习到原始真实样本集的数据分布，其目的是根据输入的室内场景图像生成逼真的假样本，使判别网络分辨不出输入样本的真伪。生成网络的特征提取部分由8个卷积层和1个全连接层组成，这部分旨在创建特征，其中这个特征可以从输入图像中带来房间边缘的预测信息。生成网络的边缘图产生部分由8个连续的反卷积层组成，ReLU激活是在两个反卷积层之间，其中为了防止模型深度与生成结果的复杂度不匹配，特将d4层的结果通过2个反卷积层输出，以督促生成预测布局边缘图的网络积极工作。判别网络部分的目的是判别出输入样本的真伪，输入样本为真样本，其输出就接近于1，输入是假样本，输出就接近于0。训练网络的目的在于使生成的样本的数据分布接近真实样本的数据分布，从而使判别网络判别不出输入样本的真伪，以达到纳什平衡，输出值接近于0.5。判别部分由8层的CNN(卷积神经网络)构成，该部分网络可以自动学习到一个好的判别方法，即其可以学习到网络中隐藏的损失函数。整体损失函数由三部分组成，分别为对抗损失，生成预测布局边缘图网络的损失，及监督网络部分的损失。预测布局边缘图是通过一个sigmoid函数由最后的卷积层输出的，这部分旨在生成高分辨率的边缘图，边缘图来自从特征提取部分得到的特征，因为反卷积层的层次结构是用来捕获不同级别的形状信息的。

S1.3，提取训练集中的样本训练条件生成对抗网络，设计目标损失函数，初始化网络模型参数。

输入图像的大小和输出边缘图的大小都是256x256。训练损失是sigmoid交叉熵和两个欧几里得损失的总和，其中，交叉熵损失被激活的边缘位置激励输出图的值，而欧几里得损失主要抑制异常边缘。sigmoid交叉熵和欧几里得损失是两种常用的损失函数，用于衡量预测结果与真实结果的差距。综上所述，生成网络的损失函数为：

其中，

其中，G^*表示生成网络的损失函数，表示最大化判别网络D中输入数据分布与真实数据分布之间的差异，最小化生成网络G的输出数据分布与真实数据分布之间的差异。x表示输入的室内场景图像，z表示输入的随机噪声，x～p_x(x)表示x的数据分布，x,y～p_data(x,y)表示x和y的联合数据分布，z～p_z(z)表示z的数据分布，G(x,z)表示生成网络的输出，y表示对应于x的真实边缘图，V_cGAN(G,D)表示对抗损失函数，E表示求归一化期望值，V_L2(G)表示L2损失函数，λ表示L2损失函数的权重，||·||符号表示取绝对值运算，V_L2(G_d4)表示生成网络中监督部分的L2损失函数，η表示该网络部分的L2损失的权重，本例中权重设定为10，G_d4表示生成网络中反卷积部分第四层的输出结果通过两层反卷积网络后的输出结果。

步骤S2，将待测室内场景图像输入至训练完成的条件生成对抗网络，得到预测布局边缘图。预测得到的边缘图能够反映室内场景的几何布局结构，对布局候选项的边界和角点位置的确定起到有效的约束作用。

如图4所示，输入的待测室内场景图像大小是256x256；输出的预测布局边缘图的大小是256x256，其分辨率更高，有助于生成更精确地布局候选项。本步骤中生成256x256大小的高分辨率边界图，与将56x56的边界图通过插值生成与室内场景图像大小一样的256x256边界图相比，其边界线更加精细，噪音少，质量更高，在对采样扇形区域进行采样的过程有利于获得更加精确的采样线，从而生成相似度更高的布局候选项。

步骤S3，估计待测的室内场景图像中的消失点，对于每个消失点等角度间隔的引出射线生成若干扇形区域；基于房间布局的3D盒模型结构理论，在透视投影下，3D空间的平行线会在2D图像的平面上相交于一点，称为消失点。对一般室内图像，有三个在空间互相正交的消失点，竖直方向有一个，水平方向有两个，其中距离图像中心更远的为远消失点，另一个为近消失点。本实施例中，消失点包括室内场景图像中垂直消失点、远水平消失点和近水平消失点。

步骤S3中，采用投票策略选出消失点。每三个一组的消失点分别为垂直点、无限远水平点和更近的水平点。计算待测室内布局图中消失点的具体步骤如下所示：

S3.1，检测出室内场景图像中满足一定长度要求的线段，将检测出的线段集合记为{l_i}，1≤i≤n，n为线段的数目，P_k为{l_i}中线段两两相交的形成第K个交点，即为候选消失点，1≤k≤K，K为{l_i}中线段两两相交的形成的交点数目，则第i个线段l_i对P_k的得分贡献为：

其中，α表示l_i与P_k和l_i中点的连线之间的夹角，σ为鲁棒性阈值，表示线段的长度，通常取值为0.1；

S3.2，计算每条线段对候选消失点P_k的投票得分，得到P_k的贡献值

S3.3，对所有K个候选消失点的投票得分做统计，其中得分最高的为竖直方向的消失点VP₁，然后基于消失点的正交性准则：＜VP₁,VP₂＞＝0、＜VP₁,VP₃＞＝0、＜VP₂,VP₃＞＝0，获得投票得分最高的一组消失点为水平方向的远消失点VP₂与水平方向的近消失点VP₃。

步骤S4：对于每个消失点，根据预测布局边缘图中对应扇形区域的平均边缘强度最大准则和消失点类型选择一或两个扇形区域作为采样扇形区域。

步骤S4中，采用修正后的自适应射线采样法得到合适的采样扇形区域，从预设的消失点出发等角度间隔的生成若干个扇形区域，然后按照以下两个标准选择平均边缘强度很强的固定数目的扇形区域，可以大大减少不必要扇形区域的选择。

扇区的总数记为H。每个扇区的平均边缘强度被记为d_i，i＝1,2,3......H。(边界线是黑色的，像素值较高，有边界线的扇形区域的像素就会高，通过计算该扇形区域的平均像素值得到平均边缘强度值。)在我们的方法中，只有同时满足以下两个条件时，才选择第i个扇区：

(1)d_i＞d_i+1，and，d_i＞d_i-1

(2)d_i-d_i+1＞T，or，d_i-d_i-1＞T

我们定义d₀＝0和d_H+1＝0。实验中阈值T设置为0.03。(1)式表示这个扇形区域的平均边缘强度大于临近的扇形区域。(2)式表示在(1)式的条件下，这个扇形区域与其一个相邻区域的边缘强度的差异大于一个阈值T。第一个标准是为了选择出局部最大边缘强度的扇形区域，第二个标准是为了防止在边缘不均匀的扇形区域中进行不必要的选择。

例如在图5中，图(a)预测的边缘在图(b)中给出。考虑到水平消失点的上部分，目标是找到用深色标出的最重叠边缘的部分。在(d)中，高于水平消失点的部分序号为1到8，其中4号和12号是生成布局所需的部分。在(c)中，满足两个标准的扇区被标注成深色，其对应的位置显示在(d)中，其中包含所需的4号扇区。根据边缘图来说，我们选择的扇区号码是合适的。这样选出的扇形区域更为准确，并且可以有效减少冗余，防止不必要的选择。

步骤S5，对预测布局边缘图加高斯模糊，然后对采样扇形区域进行采样，由在采样扇形区域中从三个消失点引出的射线两两相交生成一系列布局候选项。每一个布局候选项都是通过从垂直和无限远水平消失点生成的采样扇形区域中至多抽样两条射线产生的。具体实施步骤如下：

首先，对预测得到的布局边缘图进行加高斯模糊处理，使原来精细的边界线变粗，从而边界线的覆盖范围变大，有利于后续边界线与采样线重合。然后，对采样扇形区域进行采样，得到一系列候选的房间布局估计图。在从垂直方向的消失点，水平远消失点和水平近消失点，采样得到的扇形区域中各采样一条或者两条射线，射线两两相交确定图像内区域面的划分情况，从而生成室内场景布局候选项。然后通过计算预测布局边缘图与布局候选项之间的相似度，从候选的布局边缘图中筛选出与预测布局边缘图最相似的布局候选项作为最终的布局估计结果。从而实现对室内场景图像的布局估计任务。本步骤中，对高分辨率的预测布局边缘图进行高斯模糊，有利于采样射线与布局边界线更好地重合，已选定最好的采样扇形区域，原始的预测布局边缘图中的线条比较细，不容易与采样线重叠，通过加高斯模糊，边界图中的边界线直观上变粗了，覆盖范围变大了，则更易于得到与其重合的采样线。

步骤S6，计算各布局候选项与预测布局边缘图的相似度，并选出与预测布局边缘图最为相似的布局估计作为最终的布局估计结果。

以往的研究中，通常运用手工特征来对布局候选项进行排序，如线段成员信息，几何上下文和方向图。本发明提出的双监督的条件生成对抗网络能够产生高分辨率的边缘图，这个边缘图对于生成布局候选项是很可靠的。因此，找到最适合边缘图的布局是最重要的，具体如下：

其中，m_i表示第i个布局候选项，M是条件生成对抗网络输出的预测布局边缘图。||·||_F表示弗罗贝尼乌斯规范。m_i和M之间的相似度是通过评估重叠率和全局匹配得到的，其中使用了余弦相似性和欧几里得距离。在实验中，将μ设为0.06，以调整这两项的分量相当。

本发明实施例公开的一种基于条件生成对抗网络的室内场景布局估计方法，基于LSUN(Large-scale Scene Understanding Challenge)数据集和Hedau数据集进行了实验，以验证该方法的可行性与性能。LSUN数据集包含了4000个训练图像，394个验证集的图像和1000个测试图像。原始数据集的大小与卷积神经网络(生成网络)的深度不匹配，为防止过拟合，通过水平翻转将训练集图像的数目扩展到8000。本发明用LSUN数据集进行网络的训练。使用LSUN数据集的定义来确定生成的边界图的参数，其中每个布局都有自己所属的类型和角点坐标。该数据集拥有11个类型的室内场景的布局覆盖了大部分可能的室内场景图像。

TensorFlow被用来实现网络，基础学习速率设置为0.0002，动量因子为0.5，网络的输入模式为AB模式，即室内场图像和其对应的边界图并列，输入图像大小为256x256，预测结果为高分辨率的边界图，其大小为256x256。

综上，本发明实施例公开的一种基于条件生成对抗网络的室内场景布局估计方法，针对一幅室内场景的RGB图像，首先用LSUN数据集训练该条件生成对抗网络模型，初始化网络参数。条件生成对抗网络由生成网络和判别网络组成，两者之间是竞争关系，通过零和博弈的思想使判别网络达到纳什平衡，判别不出输入样本与真实样本的差异，从而获得足够以假乱真的伪样本。条件生成对抗网络可以自动学习真实样本的数据分布，即学习到输入到输出之间复杂的映射规律，并且判别网络可以自动学习到一个好的判别方法，可以等效为学习到一个好的损失函数，提升该部分网络的判别能力，以便与生成网络形成强的竞争关系。然后，将室内场景图像和其对应的真实边缘图输入到训练好的网络，得到预测的室内场景图像的边缘图，接着根据预测的边界图生成布局估计结果，通过传统的消失点估计方法，估计出垂直方向的消失点，远水平消失点和近水平消失点，通过自是适应采样方法选择出平均边缘强度最强的扇形区域，然后，对采样扇形区域进行等角度间隔的均匀采样，由在采样扇形区域中从三个消失点引出的射线两两相交确定一组布局候选项，采用衡量布局候选项与预测得到的边缘图的相似性的方法选出最优布局估计结果，即最后的室内场景图像的布局估计结果。该方法考虑了输入图像的整体信息，预测结果为高分辨率的边缘图，能够更全面、更有效地对布局候选项进行约束，提高了布局估计的准确率，在室内场景的3D重建中具有重要的应用价值。

本发明另一实施例公开的一种基于条件生成对抗网络的室内场景布局估计装置，包括网络训练模块、预测布局边缘图生产模块、消失点估计模块、采样区域选择模块、候选图生成模块以及布局估计确定模块。其中，网络训练模块，用于运用训练集训练条件生成对抗网络，训练集中样本的格式为AB模式，即室内场景图像和其对应的边缘图并行排列，所述条件生成对抗网络包括生成网络和判别网络，室内场景图像作为生成网络的输入，由生成网络生成的室内场景图像对应的边缘图作为判别网络的输入；所述生成网络输出的边缘图与输入的室内场景图像尺寸相同；预测布局边缘图生成模块，用于将待测的室内场景图像输入训练完成的条件生成对抗网络，得到预测布局边缘图；消失点估计模块，用于估计待测的室内场景图像中的位于垂直方向和水平方向上的三个消失点，对于每个消失点等间隔的引出射线生成若干扇形区域；采样区域选择模块，用于对于每个消失点，根据预测布局边缘图中对应扇形区域的平均边缘强度最大准则和消失点类型选择一或两个扇形区域作为采样扇形区域；布局候选项生成模块，用于对预测布局边缘图加高斯模糊，然后对采样扇形区域进行采样，由在采样扇形区域中从三个消失点引出的射线两两相交生成一系列布局候选项；布局估计确定模块，用于计算各布局候选项与预测布局边缘图的相似度，并选出与预测布局边缘图最为相似的布局估计作为最终的布局估计结果。

上述装置实施例与前述方法实施例属于同一发明构思，具体实施细节此处不再赘述。

基于同样的发明构思，本发明另一实施例公开的一种基于条件生成对抗网络的室内场景布局估计装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现前述的基于条件生成对抗网络的室内场景布局估计方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，所述条件生成对抗网络中生成网络的反卷积部分由两个分支组成，第一个分支包括八层反卷积层，用于生成预测布局边缘图，第二个分支包括两层反卷积层，用于监督第一个分支工作，由第一个分支的第四层的输出结果经过两层反卷积后将输出结果大小设置成与预测布局边缘图的大小一致，然后两个结果一同输出。

3.根据权利要求2所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，所述条件生成对抗网络中生成网络的损失函数为：

其中，

4.根据权利要求1所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，步骤(3)中消失点的估计包括：

5.根据权利要求1所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，步骤(4)中按照以下两个标准选择固定数目的采样扇形区域：

(1)d_i＞d_i+1，and，d_i＞d_i-1

(2)d_i-d_i+1＞T，or，d_i-d_i-1＞T

6.根据权利要求1所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，步骤(6)，采用如下公式计算布局候选项与预测布局边缘图的相似度：

7.根据权利要求1所述的一种基于条件生成对抗网络的室内场景布局估计方法，其特征在于，通过水平旋转扩大训练数据集对条件生成对抗网络进行训练，获得高分辨率的预测布局边缘图，用于后续的最优布局估计的选择。

8.一种基于条件生成对抗网络的室内场景布局估计装置，其特征在于，包括：

9.一种基于条件生成对抗网络的室内场景布局估计装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-7所述的基于条件生成对抗网络的室内场景图像布局估计方法。