CN108648224B

CN108648224B - 一种基于人工神经网络的实时场景布局识别及重建的方法

Info

Publication number: CN108648224B
Application number: CN201810481159.8A
Authority: CN
Inventors: 颜成钢; 邵碧尧; 徐枫; 丁贵广; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-07-13
Anticipated expiration: 2038-05-18
Also published as: CN108648224A

Abstract

本发明公开了一种基于人工神经网络的实时场景布局识别及重建方。本发明用人工神经网络模型对输入序列进行处理，并通过寻找单帧之间的相关性，得到室内场景的布局识别后，在曼哈顿世界假设下，利用空间中一点在像素坐标系下存在唯一投影的原理，迭代优化，得到场景中每个平面的单位法向量和该平面到相机中心的距离，并在OpenGL下渲染平面。本发明利用人工神经网络，并寻找帧与帧间的联系，使得网络输出结果和三维重建结果更为精确；使用单目的RGB信息还原三维信息，减少硬件成本，同时利用每帧得到的布局信息，使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。

Description

一种基于人工神经网络的实时场景布局识别及重建的方法

技术领域

本发明属于计算机视觉、计算机图形学技术领域，特别地，本发明涉及一种基于人工神经网络的实时场景布局识别及重建方法。

背景技术

计算机视觉的终极目标是达到人眼和人脑对图像的理解能力，在信息爆炸的时代为人类分担图像信息相关的处理与分析工作，也使更多智能化设备能更好地完成更多的任务。

室内场景布局识别和三维重建是计算机视觉与计算机图像学领域中一个重要且基础的问题，可以为其他室内场景的任务提供强有力的先验条件，主要包括安防领域的行人检测、目标追踪、人脸识别等，互联网信息领域的图像内容检索，智能机器人领域的目标找寻、场景理解、障碍物检测等，给人类日常生活和工作的很多方面提供了便利，具有重要的理论研究意义和工程应用价值。在智能机器人领域，场景布局的识别和重建为机器人的定位起到重要作用；在增强现实中，虚拟物体要在镜头下实现较好地定位也需要对场景实现较好的感知。目前处理复杂室内场景的布局识别和三维重建仍存在较大问题，因此该问题具有极高的科研和应用价值。

在计算机视觉领域，对复杂室内场景进行较好的布局识别和三维重建一直是一个重要但具有挑战性的问题。因此，本发明中的方法利用人工神经网络模型对室内场景进行布局识别，克服传统方法在处理复杂场景时存在的不足，为三维重建提供较好的输入信息，使得重建后得到平面更为精确。

发明内容

本发明的目的是解决复杂室内场景下实时布局识别和平面三维重建的问题，其输入是一段视频帧序列，发明中的方法用人工神经网络模型对输入序列进行处理，并通过寻找单帧之间的相关性，提高网络判断的准确性，得到室内场景的布局识别(地面与墙面，天花板与墙面，墙面与墙面之间的交线)后，在曼哈顿世界假设下，利用空间中一点在像素坐标系下存在唯一投影的原理，迭代优化，得到场景中每个平面的单位法向量和该平面到相机中心的距离，并在OpenGL下渲染平面。该方法利用人工神经网络，并寻找帧与帧间的联系，使得网络输出结果和三维重建结果更为精确。

本发明提出的一种基于人工神经网络的实时场景布局识别及重建方法，其主要步骤如下所示：

步骤1.训练阶段；

训练分为三个阶段：

第一阶段：实现对室内场景的语义分割；

第二阶段：将第一阶段的输出结果用作训练数据，训练一个全连接层实现对室内场景布局的识别；

第三阶段：为整合前面两个阶段，并将继承得到的权值用于第三阶段的权值初始化，在第一、第二阶段得到模型的基础上进行模型的微调。

使用的网络根据卷积残差网络修改，搭建全卷积神经网络，在ground truth的监督下进行网络训练，得到可以对室内场景进行布局识别的模型；

步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理，由于视频帧序列存在连续性，因此相邻帧之间的图像存在相关性，算法对单帧图像进行特征点检测，并对相邻帧的图像进行特征点匹配，用于得到每帧图像中的场景布局识别结果，添加帧与帧之间的图像特征点匹配可以使得得到的场景布局识别结果更为准确；

步骤3.基于相关约束对实时场景进行重建，相关约束条件如下：

I.相机光轴方向平行于地面；

II.拍摄的场景为曼哈顿世界，相邻平面两两垂直；

III.该视频帧序列通过透视投影获得，使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式

Q_i＝λK^-1q_i

其中，K,q和Q分别如下

平面法向量和平面到相机中心距离满足

d_p＝n_pQ_i＝n_pλK^-1q_i；

单帧图像得到布局识别结果后进行平面三维重建，利用曼哈顿世界相邻平面两两垂直，利用空间中一点在像素坐标系下存在唯一投影进行约束，优化得到单帧图像中平面的单位法向量和到相机中心距离，经OpenGL渲染后即为该帧图像对应的三维平面。

本发明的特点及有益效果：

本发明实现了一种基于人工神经网络的实时场景布局识别及重建方法，对室内场景下作的任务有重大意义。本发明中的方法优势如下

1.利用人工神经网络模型完成室内场景下的布局识别任务，提高系统对复杂场景的处理能力

2.利用视频帧序列的特性，寻找到帧与帧之间的相关性，优化每帧的布局识别

3.使用单目的RGB信息还原三维信息，减少硬件成本，同时利用每帧得到的布局信息，使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。

此技术可以在普通PC机或工作站等硬件系统上实现。

附图说明

图1为本发明方法总体流程图。

图2为一段视频中的一帧的原图，络实现场景布局识别的结果和重建得到三维模型；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提出的基于人工神经网络的实时场景布局识别及重建方法，如图1所示，包括以下三个步骤：

1)搭建人工神经网络模型，方法中选择了卷积残差神经网络作为网络的基本结构，为了使得网络可以输出矩阵，在网络的顶端用若干卷积层代替一般的全连接层。为了克服训练数据的不均衡和更好地处理场景中存在较为严重遮挡的情况，网络训练分为三个阶段：

I.第一阶段：训练网络实现对复杂室内场景的语义分割。此处用到的网络是在ResNet101的基础上修改得到的，输入数据为普通RGB图片，对应的ground truth为输入图片中的场景人工语义分割的结果，网络输出结果与ground truth之间进行比较，运用梯度下降的方法求得较好的网络权值，得到的模型可以对室内场景中的物体进行37类的分类，网络输出结果为w*h*37的矩阵，每个通道对应一类物体在该场景中存在概率，取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别，最终可以得到该场景的语义分割结果，该结果为最终得到场景布局识别提供一个有用的先验条件。

II.第二阶段：训练网络实现场景布局分割。第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后得到若干对应语义分割的37通道的特征图，groundtruth为场景中三类交线(墙与地面，墙与天花板，墙与墙)和背景的分类结果。将每个像素点作为训练数据。该阶段使用一个全连接层，实现37类语义分割的概率到4类布局(三种交线加背景)的映射，训练得到的模型实现输入37维概率分布，输出该种情况下4类布局的概率分布。

III.第三阶段：该阶段为前两个阶段的综合，将第二阶段的全连接层改为卷积层，两个阶段的网络结构合并为一个完整网络，第二阶段中得到的权值改变其形状，37*4的改为1*1*37*4，用于初始化最顶端的卷积层权值，同时继承第一阶段得到权值，作为初始权值。训练数据为RGB图片和对应的场景布局人工标记结果，进行端对端训练，对权值进行微调，最终得到的模型可以实现输入RGB图片，输出RGB图片对应场景的布局识别结果。

2)方法中处理的数据为视频帧序列，由于视频帧是连续的，因此视频帧之间存在一定的相关性，这部分检测帧与帧之间特征点，并将特征点进行匹配，配合第一部分得到的室内场景布局识别模型，一起对视频帧中的场景进行布局识别，将帧间的相关性作为又一约束，使得布局识别更为准确。

3)本发明中的方法基于以下假设下进行

I.相机光轴方向平行于地面

II.所拍摄的场景为曼哈顿世界，相邻平面两两垂直

Q_i＝λK^-1q_i

这里的K,q和Q分别如下

平面法向量和平面到相机中心距离满足

d_p＝n_pQ_i＝n_pλK^-1q_i

目标输出是场景中平面的法向量和平面到相机中心的距离。主要原理为：相机坐标系下空间中一点映射回像素坐标系下有且仅有一个点，像素坐标系中两个平面交线上的点同时属于两个平面，根据两个平面的法向量和到相机中心的距离分别可以还原得到两个相机坐标系下的三维坐标，理想情况下得到的两个三维坐标应当重合，因此约束两个三维坐标之间的距离越小，求得的法向量和距离越理想。利用前两步得到的场景布局识别信息做一步初始化，得到更为理想的交线信息，利用场景中交线的端点列出约束条件，用fmincon函数进行求解该非线性规划问题，输出结果为平面的单位法向量和平面到相机中心的距离。

得到平面的信息后，为了实现更好的显示效果，输入得到的平面信息，使用OpenGL进行平面渲染，可以得到视频帧序列中每帧场景对应的布局的三维平面重建结果。

本发明的一个实施例包含一段视频帧序列，实施例中的每一帧都会重建出与场景对应的三维平面。图2展示了其中一帧的输入和部分结果。处理一帧图像的过程具体包括以下步骤：

1)根据之前部分提到的三个阶段训练得到实现室内场景布局识别的模型，取视频帧序列中一帧，调用模型进行处理，输出得到w*h*4的特征图，单个通道对应于该类标签的概率热图。取每个像素对应的4维概率向量，该向量中最大值所在位置，作为该像素点的预测标签，最终得到一张场景布局识别的灰度图。

2)对该帧图像进行特征点检测，并与之间一帧图像进行特征点匹配，若相同特征点的位置预测标签不一致，取概率较大的一方作为该特征点位置的预测标签。

3)对得到的场景布局识别结果进行进一步处理，一般来说该结果中的交线较为粗糙，处理后得到细长的直线来表示布局结果，作为重建部分的初始化。取得到直线的端点坐标，根据如下公式列出约束条件：

Q_i＝λK^-1q_i

d_p＝n_pQ_i＝n_pλK^-1q_i

使用fmincon函数进行非线性规划求解，得到该帧图像中场景平面对应的单位法向量和平面到相机中心的距离。用得到的平面信息使用OpenGL进行平面渲染，得到最终显示结果。

Claims

1.一种基于人工神经网络的实时场景布局识别及重建方法，其特征在于：

步骤1.训练阶段；

训练分为三个阶段：

第一阶段：实现对室内场景的语义分割；

第三阶段：为整合前面两个阶段，并将继承得到的权值用于第三阶段的权值初始化，在原有权值的基础上进行权值的微调；

使用的网络根据卷积残差网络修改，搭建全卷积神经网络，在ground truth的监督下进行网络训练，得到可以对室内场景进行布局识别的模型；所述的ground truth为场景中三类交线，即墙与地面，墙与天花板，墙与墙之间的交线和背景的分类结果；

步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理，由于视频帧序列存在连续性，因此相邻帧之间的图像存在相关性，对单帧图像进行特征点检测，并与之前一帧图像进行特征点匹配，若相同特征点的位置预测标签不一致，取概率较大的一方作为该特征点位置的预测标签，用于得到每帧图像中的场景布局识别结果；

I.相机光轴方向平行于地面；

II.拍摄的场景为曼哈顿世界，相邻平面两两垂直；

III.该视频帧序列通过透视投影获得，使用具有固有矩阵K的拍摄设备；相机坐标系下Q和像素坐标系下q满足如下公式

Q_i＝λK^-1q_i

其中，K,q和Q分别如下

平面法向量和平面到相机中心距离满足

d_p＝n_pQ_i＝n_pλK^-1q_i；

2.根据权利要求1所述的一种基于人工神经网络的实时场景布局识别及重建方法，其特征在于步骤1中第一阶段所述的实现对室内场景的语义分割，具体如下：

通过训练网络实现对复杂室内场景的语义分割，所述的训练网络是在ResNet101的基础上修改得到的，输入数据为普通RGB图片，对应的ground truth为输入图片中的场景人工语义分割的结果，网络输出结果与ground truth之间进行比较，运用梯度下降的方法求得较好的网络权值，得到的模型能够对室内场景中的物体进行37类的分类，网络输出结果为w*h*37的矩阵，每个通道对应一类物体在该场景中存在概率，取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别，最终得到该场景的语义分割结果，该结果为最终得到场景布局识别提供一个有用的先验条件。

3.根据权利要求2所述的一种基于人工神经网络的实时场景布局识别及重建方法，其特征在于步骤1所述的第二阶段：将第一阶段的输出结果用作训练数据，训练一个全连接层实现对室内场景布局的识别，具体如下：

第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后，得到若干对应语义分割的37通道的特征图，ground truth为场景中三类交线和背景的分类结果；将每个像素点作为训练数据；第二阶段使用一个全连接层，实现37类语义分割的概率到4类布局的映射，训练得到的模型实现输入37维概率分布，输出4类布局的概率分布。

4.根据权利要求3所述的一种基于人工神经网络的实时场景布局识别及重建方法，其特征在于所述的第三阶段具体实现录如下：

将第二阶段的全连接层改为卷积层，两个阶段的网络结构合并为一个完整网络，第二阶段中得到的权值改变其形状，37*4的改为1*1*37*4，用于初始化最顶端的卷积层权值，同时继承第一阶段得到权值，作为初始权值；训练数据为RGB图片和对应的场景布局人工标记结果，进行端对端训练，对权值进行微调，最终得到的模型可以实现输入RGB图片，输出RGB图片对应场景的布局识别结果。