CN112053441A

CN112053441A - 一种室内鱼眼图像的全自动布局恢复方法

Info

Publication number: CN112053441A
Application number: CN202011096920.XA
Authority: CN
Inventors: 肖立凯; 孟明; 周忠; 周颐
Original assignee: Beijing Bigview Technology Co ltd; Beihang University
Current assignee: Beijing Bigview Technology Co ltd; Beihang University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-12-08
Anticipated expiration: 2040-10-14
Also published as: CN112053441B

Abstract

本发明提供了一种室内鱼眼图像的全自动布局恢复方法，步骤为：(1)构建室内鱼眼图像数据集；(2)建立基于变形卷积的神经网络模型，设置相应的模型参数；(3)将训练集输入模型进行训练优化；(4)将测试集输入优化后的模型，输出角点概率图和边概率图；(5)将角点概率图二值化，提取角点图像坐标，基于正交投影模型和角点图像坐标，恢复三维室内布局。对于给定的RGB鱼眼图像，本方法首次实现了从单幅鱼眼图像中端到端地恢复出三维室内场景布局，应用于机器人技术和虚拟/增强现实，提升了室内场景理解的速度和精度。

Description

一种室内鱼眼图像的全自动布局恢复方法

技术领域

本申请实施例涉及室内场景理解技术领域，尤其涉及一种室内鱼眼图像的全自动布局恢复方法。

背景技术

室内场景理解技术领域是指通过对室内场景进行视觉分析，从而得到室内场景的空间布局结构。室内布局估计作为室内场景理解的一个子任务，是指从单张或多张室内照片中估计出三维室内布局，在机器人导航、虚拟/增强现实、智慧城市、室内监控等领域有广泛的应用。

室内布局估计技术领域发展出了很多方法，大多数的方法假设室内布局满足曼哈顿世界模型。传统的室内布局估计方法根据透视图像内的几何信息提取场景内的直线，生成一系列的布局估计假设，然后基于方位图、几何上下文信息选出最符合真实场景的假设最后布局估计的结果。

传统相机拍摄得到的透视图的视角较小，每次只能恢复出室内布局的局部结构，因此Yinda Zhang等人提出使用视角360°的全景图像用于室内布局估计。

卷积神经网络在图像分割、目标识别、图像分类等问题上较好的表现让研究者开始探索基于卷积神经网络解决室内布局估计问题。Zou等人提出一个名为LayoutNet的网络改进布局估计，Sun等人提出名为HorizonNet的网络学习室内布局。

但是，全景图像是将多张透视图像经过图像拼接得到的，会引入一定的误差；而且全景相机拍摄全景图像的成本较高。

发明内容

本发明的技术解决问题：克服全景图像存在一定误差以及拍摄成本高的不足，提出一种室内鱼眼图像的全自动布局恢复方法。

本发明的技术解决方案如下：一种室内鱼眼图像的全自动布局恢复方法，步骤如下：

(1)构建室内鱼眼图像数据集；

(2)建立基于变形卷积的神经网络模型，设置相应的模型参数；

(3)将训练集输入模型进行训练优化；

(4)将测试集输入优化后的模型，输出角点概率图和边概率图；

(5)将角点概率图二值化，提取角点图像坐标，基于正交投影模型和角点图像坐标，恢复三维室内布局。

可选地，所述构建室内鱼眼图像数据集，包括：

(1)获取室内场景的RGB鱼眼图像和角点图像坐标；

(2)生成像素值全为0、大小为1024×1024的像素矩阵，以角点图像坐标为圆心，将半径为6的区域内的像素值改为(0,0,255)，把修改后的像素矩阵保存为单通道的角点图；

(3)基于角点图像坐标，生成1024×1024的三通道边图。

可选地，所述建立基于变形卷积的神经网络模型，包括：

(1)提取鱼眼有效区域：以像素点(512,512)为圆心，半径为512像素的区域。将有效区域外像素点的偏移量设置为(0,0)；

(2)基于正交投影模型和变形卷积提出正交卷积OrthConv，求解有效区域内像素点的偏移量：正交卷积与标准卷积采样点坐标的差值；

(3)建立基于变形卷积、遵循编码器-解码器策略的网络模型。

可选地，所述将角点概率图二值化，提取角点图像坐标，基于正交投影模型和角点图像坐标，恢复三维室内布局，包含：

(1)将角点概率图二值化，标记二值图像中的连通区域；

(2)求取连通区域的重心作为角点图像坐标；

(3)基于正交投影，将图像坐标转换为空间三维坐标，生成室内布局的三维点云；

(4)将点云的三维空间坐标映射为图像坐标，生成布局纹理。

可选地，所述基于角点图像坐标，生成1024×1024的三通道边图，包括：

(1)生成像素值为0、大小为1024×1024的像素矩阵，将图像坐标(px，py)转换为经纬坐标

和空间三维坐标(x，y，z)，计算公式如下：

u＝px-512

v＝py-512

x＝r×cosθ

y＝r×sinθ

(2)以

为增量划分相邻角点的纬度坐标区间(θ₁,θ₂)，通过相邻角点的空间三维坐标(x₁,y₁,z₁)、(x₂,y₂,z₂)和区间内任一纬度θ′求出对应的经度φ′，计算公式如下：

(3)将经纬坐标(φ′，θ′)转换为图像坐标(px′，py′),计算公式如下：

px′＝512+512×sinφ′×cosθ′

py′＝512+512×sinφ′×sinθ′

(4)以图像坐标(px′，py′)为圆心，将半径为2的区域内的像素值改为(0,255,0)，将修改后的像素矩阵保存为三通道的边图。

可选地，所述基于变形卷积提出OrthConv，求解有效区域内像素点的偏移量，包含：

(1)将有效区域内的图像坐标(px，py)转换为经纬坐标

(2)定义卷积核上任一点p的坐标为向量[i，j，d]，其中i和j的取值范围为

d的计算公式如下：

其中，kw为卷积核的宽度，imageW为待处理图像的宽度；

(3)定义旋转矩阵R，将标准化后的向量p旋转至

记旋转后的向量为p′＝[x,y,z]，计算公式如下：

其中，R_y(θ)表示将y轴逆时针旋转角度θ得到的旋转矩阵；

(4)将向量p′＝[x,y,z]转换为图像坐标(px′，py′)，偏移量(offsetx,offsety)的计算公式如下：

offsetx＝px′-px

offsety＝py′-py

可选地，所述建立基于变形卷积、遵循编码器-解码器策略的网络模型，包含：

(1)编码器包含7层卷积层，每一层卷积后跟随一个ReLU操作和最大池化层，下采样因子为2；

(2)解码器包含2个分支，上层分支作为布局边概率图预测器，下层分支作为布局角点概率图预测器；

(3)解码器分支采用最邻近插值，包含7层上采样操作，上采样后跟随卷积层；

(4)编码器的7层卷积层中前三层使用标准卷积，后四层使用OrthConv，解码器的7层卷积层中前四层使用OrthConv，后三层使用标准卷积。

本发明与现有技术相比的优点在于：

(1)现有的室内布局估计技术对全景图像进行处理。全景图像在由多张透视图进行图像拼接时存在一定误差，对最终的布局恢复结果有一定影响，且全景图像拍摄成本高。本发明采用鱼眼图像作为网络输入，鱼眼图像具有视角大且获取成本较低的特点，更适用于室内布局估计技术。

(2)全景图像和鱼眼图像都存在严重的畸变问题。现有的室内布局估计技术利用基于标准卷积的深度神经网络估计室内布局，标准卷积中卷积核固定的采样方式导致难以适应图像中的几何形变。本发明基于变形卷积和鱼眼图像的正交投影模型提出OrthConv，通过生成固定偏移量的方式改变卷积核的采样方式，更适用于室内布局估计技术。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于变形卷积神经网络的室内鱼眼图像布局恢复方法的总体流程示意图；

图2为本发明的室内鱼眼图像数据集示意图，(a)为RGB鱼眼图像，(b)为对应的角点图，(c)为对应的边图；

图3为本发明的神经网络结构图；

图4为本发明的网络预测出的角点可视化示意图，(a)为网络预测得到的角点概率图，(b)为网络预测角点在原图上的可视化表示；

图5为本发明的恢复的三维室内布局示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明提出了一种室内鱼眼图像的全自动布局恢复方法，如图1所示，本发明的总体流程步骤如下：

(1)构建室内鱼眼图像数据集；

a)首先获取室内场景的RGB鱼眼图像和角点图像坐标(即角点在图像中的坐标)。如图2(a)所示，是一张RGB鱼眼图像的示意图，对应的角点图像坐标为(641，252)，(621,834)，(252,781)，(220,312)，可选的，数据集中真实角点的信息可通过自动识别，或手工标注得到。

b)然后生成像素值全为0、大小为1024×1024的像素矩阵，以角点图像坐标为圆心，将半径为6的区域内的像素值改为(0,0,255)，把修改后的像素矩阵保存为单通道的角点图。图2(b)所示为角点图示意图。

c)最后生成如图2(c)所示的1024×1024的三通道边图。基于正交投影，首先将角点图像坐标(px，py)转换为经纬坐标

和空间三维坐标(x，y，z)；然后以

为增量划分相邻角点的纬度坐标区间(θ₁,θ₂)(如图2(b)中左上角点和右上角点)，求出纬度θ′对应的经度φ′；然后将经纬坐标(φ′，θ′)转换为图像坐标(px′，py′)；最后以图像坐标(px′，py′)为圆心，将半径为2的区域内的像素值改为(0,255,0)，将修改后的像素矩阵保存为三通道的边图。其中正交投影的定义如下：

rd＝f sin(θ)

定义中，rd是鱼眼图像中的点到畸变中心的距离，f是鱼眼相机的焦距，θ是入射角。

(2)建立基于变形卷积的神经网络模型，设置相应的模型参数。

a)提取鱼眼有效区域：如图2(a)所示，鱼眼有效区域为以像素点(512,512)为圆心，半径为512像素的区域。将有效区域外像素点的偏移量设置为(0,0)；

b)基于变形卷积提出正交卷积OrthConv，求解鱼眼有效区域内像素点的偏移量。首先将图像坐标转换为经纬坐标，定义卷积核上任一点p的坐标为向量[i，j，d]，其中i和j的取值范围为

d的计算公式如下：

其中，kw为卷积核的宽度，imageW为待处理图像的宽度；

然后定义旋转矩阵R，将标准化后的向量p旋转至

记旋转后的向量为p′＝[x,y,z]，计算公式如下：

其中，R_y(θ)表示将y轴逆时针旋转角度θ得到的旋转矩阵；

最后将向量p′＝[x,y,z]转换为图像坐标(px′，py′)，偏移量(offsetx,offsety)的计算公式如下：

offsetx＝px′-px

offsety＝py′-py

c)建立基于变形卷积、遵循编码器-解码器策略的网络模型。如图3所示，编码器前三层卷积层为标准卷积，后四层卷积为OrthConv；解码器有两个分支，每个分支中前四层卷积为OrthConv，后三层卷积为标准卷积。

网络模型中使用跳跃连接，共同预测角点概率图和边概率图。

(3)将训练集输入模型进行训练优化。采用Adam优化器更新网络的参数，学习率为e^-4,训练集和验证集的batch size设置为2。

(4)将测试集输入优化后的模型，输出角点概率图和边概率图，网络预测的角点概率图如图4(a)所示。

a)将图4(a)所示的角点概率图二值化，标记二值图像中的连通区域；

b)求取连通区域的重心作为角点图像坐标。从图4(a)所示角点概率图提取出的角点坐标为(643，247)，(625,833)，(248,783)，(218,309)，将以上角点坐标显示在原图上，可视化结果如图4(b)所示。

c)基于正交投影，将图像坐标转换为空间三维坐标，生成室内布局的三维点云；

d)将点云的三维空间坐标映射为图像坐标，生成布局纹理。最终，得到如图5所示的三维室内布局。

Claims

1.一种室内鱼眼图像的全自动布局恢复方法，其特征在于，包括如下步骤：

(1)构建室内鱼眼图像数据集；

(3)将训练集输入模型进行训练优化；

2.根据权利要求1所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(1)构建室内鱼眼图像数据集，包括：

(1.1)获取室内场景的RGB鱼眼图像和角点图像坐标，即角点在鱼眼图像中的坐标；

(1.2)生成像素值全为0、大小为1024×1024的像素矩阵，以每个角点图像坐标为圆心，将半径为6的区域内的像素值改为(0,0,255)，把修改后的像素矩阵保存为单通道的角点图；

(1.3)基于角点图像坐标，生成1024×1024的三通道边图。

3.根据权利要求1所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(2)建立基于变形卷积的神经网络模型，包括：

(2.1)提取鱼眼有效区域：以像素点(512,512)为圆心，半径为512像素的区域，将有效区域外像素点的偏移量设置为(0,0)；

(2.2)基于正交投影模型和变形卷积提出正交卷积OrthConv，求解有效区域内像素点的偏移量，即正交卷积与标准卷积采样点坐标的差值；

(2.3)建立基于变形卷积、遵循编码器-解码器策略的网络模型。

4.根据权利要求1所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(5)将角点概率图二值化，提取角点图像坐标，基于正交投影模型和角点图像坐标，恢复三维室内布局，包括：

(5.1)将角点概率图二值化，标记二值图像中的连通区域；

(5.2)求取连通区域的重心作为角点图像坐标；

(5.3)基于正交投影，将图像坐标转换为空间三维坐标，生成室内布局的三维点云；

(5.4)将点云的三维空间坐标映射为图像坐标，生成布局纹理。

5.根据权利要求2所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(1.3)中基于角点图像坐标，生成1024×1024的三通道边图，包括：

(1.3.1)生成像素值为0、大小为1024×1024的像素矩阵，将图像坐标(px，py)转换为经纬坐标

和空间三维坐标(x，y，z)；

(1.3.2)以

为增量划分相邻角点的纬度坐标区间(θ₁,θ₂)，通过相邻角点的空间三维坐标(x₁,y₁,z₁)、(x₂,y₂,z₂)和区间内任一纬度θ′求出对应的经度φ′；其中，在同一面墙上的两个角点就是相邻角点；

(1.3.3)将经纬坐标(φ′，θ′)转换为图像坐标(px′，py′)；

(1.3.4)以图像坐标(px′，py′)为圆心，将半径为2的区域内的像素值改为(0,255,0)，将修改后的像素矩阵保存为三通道的边图。

6.根据权利要求3所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(2.2)中基于变形卷积提出OrthConv，求解有效区域内像素点的偏移量，包括：

(2.2.1)将有效区域内的图像坐标(px，py)转换为经纬坐标

(2.2.2)定义卷积核上任一点p的坐标为向量p＝[i，j，d]，其中i和j的取值范围为

d的计算公式如下：

其中，kw为卷积核的宽度，imageW为待处理图像的宽度；

(2.2.3)定义旋转矩阵R，将标准化后的向量p旋转至

记旋转后的向量为p′＝[x,y,z]，计算公式如下：

其中，R_y(θ)表示将y轴逆时针旋转角度θ得到的旋转矩阵；

(2.2.4)将向量p′＝[x,y,z]转换为图像坐标(px′，py′)，偏移量(offsetx,offsety)的计算公式如下：

offsetx＝px′-px

offsety＝py′-py。

7.根据权利要求3所述的一种室内鱼眼图像的全自动布局恢复方法，其特征在于：所述步骤(2.3)建立基于变形卷积、遵循编码器-解码器策略的网络模型，包括：

(2.3.1)编码器包含7层卷积层和最大池化层，下采样因子为2；解码器包含2个分支，上层分支作为布局边概率图预测器，下层分支作为布局角点概率图预测器；每一个分支包含7层上采样操作和卷积层；

(2.3.2)编码器的7层卷积层中前三层使用标准卷积，后四层使用OrthConv，解码器的7层卷积层中前四层使用OrthConv，后三层使用标准卷积。