CN110443883A

CN110443883A - 一种基于dropblock的单张彩色图片平面三维重建方法

Info

Publication number: CN110443883A
Application number: CN201910609674.4A
Authority: CN
Inventors: 郭渝慧; 夏嘉璐; 宋泓颐; 邵镇炜; 鄢腊梅
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-12
Anticipated expiration: 2039-07-08
Also published as: CN110443883B

Abstract

本发明公开了一种基于dropblock的单张彩色图片平面三维重建方法，包括以下步骤：步骤S1：使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型；步骤S2：使用经过训练的卷积神经网络对单张彩色图片进行示例分割和深度估计；步骤S3根据步骤S2得到的平面实例分割和深度估计融合一个三维模型。与现有技术相比，将单张彩色图片进行尺度归一化后，通过经dropblock方法训练好的卷积神经网络进行平面实例分割和深度估计，然后投影到三维空间完场三维模型的构建，从而能够提高计算速度和精度。

Description

一种基于dropblock的单张彩色图片平面三维重建方法

技术领域

本发明属于计算机视觉、计算机图形学技术领域，特别地，本发明涉及一种基于dropblock的单张彩色图片平面三维重建方法。

背景技术

图像的三维重建技术是综合了计算机图形学、计算机视觉、图像处理、计算机深度学习等多学科知识的新兴技术。利用单目相机获取的单张彩色图片进行三维重建，由于丢失了场景的一个维度，需要利用图像的几何约束进行摄像设备的标定或平面标定,进而估算得到必需的深度信息,最后利用几何投影知识等对图像进行数字化的表述，构建数字化的三维模型。因为深度信息的估计难度大和准确性不高成为了单目三维重建技术不能广泛运用的关键因素。相比于传统的单张彩色图像三维重建技术，近来兴起的，利用卷积神经网络完成平面三维重建的方法具有较高的精度。但是所需的卷积神经网络由于复杂的结构，往往有大量的参数参与运算，导致计算量庞大，并不能高效实时得三维重建。

现有技术的单张彩色图片平面三维重建主要存在以下两个问题：

1、对于利用单目相机获取的单张彩色图片，平面实例的识别和深度信息的估计难度大和准确性不高；

2、通过卷积神经网络进行三维重建需要的计算量庞大，并不能高效实时的进行平面的三维重建。

故，针对现有技术的缺陷，实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

有鉴于此，确有必要提供一种基于dropblock的单张彩色图片平面三维重建方法，将单张彩色图片进行尺度归一化后，通过经dropblock方法训练好的卷积神经网络进行平面实例分割和深度估计，然后投影到三维空间完场三维模型的构建，从而能够提高计算速度和精度。

为了克服现有技术的缺陷，本发明的技术方案如下：

一种基于dropblock的单张彩色图片平面三维重建方法，包括以下步骤：

步骤S1：使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型；

步骤S2：使用经过训练的卷积神经网络对经过预处理的单张彩色图片进行示例分割和深度估计；

步骤S3将预测得到的平面实例分割和深度估计融合一个三维模型；

其中，步骤S1进一步包括：

步骤S11：获取ScanNet数据集；

步骤S12：构建所需的卷积神经网络模型；

步骤S121：整个网络的输入是一张彩色图片，尺寸为256*192*3。后面紧跟的编码器是对ResNet-101-FPN的扩展，在其后加了两个横向连接和两个自顶向下的方式，其输出特征图的尺寸为256*192*64。网络中出现的三个解码器——平面分割解码器、平面编码解码器、平面深度解码器——都为一个1*1的卷积层，输出的特征图尺寸分别为256*192*1、256*192*2、256*192*3。

步骤S122：通过平面分割解码器将特征图中的平面/非平面区域提取出来，使用如下交叉熵损失函数L_s：

其中，PL和NP分别表示属于平面和非平面的像素点的集合，p_i表示图片中第i个像素点属于平面区域的概率，S＝256*192为图片中像素的数量，sum()函数表示集合中元素的数量。

步骤S123：将平面/非平面区域与ResNet-101-FPN的特征图进行掩膜，然后作为平面编码解码器、平面深度解码器的输入。

步骤S124：通过平面分割解码器赋予图片中的每一个像素点一个编码值，代表其所属平面实例。其使用一种差异损失函数L_C，包括两部分——近损失函数L_near和远损失函数L_far：

L_C＝L_near+L_far

近损失函数L_near将每一个的平面实例上像素点的编码和其所在平面实例的编码均值拉近：

其中C表示一张图片中平面实例数量的真实值，S_C表示一个平面实例中的元素，即像素，x_j表示像素编码值，代表该像素归属的平面示例，μ_i表示一个平面实例的编码均值，符号∨表示取大运算。

远损失函数L_far则将不同的平面实例的编码均值推远：

λ_ij＝1.5-|μ_i-μ_j|+|1.5-|μ_i+μ_j||

步骤S125：使用均值漂移算法对掩膜过的像素编码聚类，得到个平面实例。计算每一个像素在每一个平面上的概率P_ij：

步骤S126：通过平面深度解码器预测图片中的每一个像素点的深度信息。假设三维空间中的平面法向量为表示1*3的实数向量；为了使每个平面的法向量都是唯一的，n计算方式如下：

其中表示平面的单位法向量，方向是由从原点出发垂直指向平面；d表示平面到原点的垂直距离。

步骤S127：使用如下的L1损失函数对每一个像素的深度估计进行监督：

其中n_i表示第i个像素深度信息的预测值，表示第i个像素深度信息的真实值。

步骤S128：通过实例感知池化将像素级的深度信息和分支二得到的平面实例分割融合得到每一个实例平面的深度信息，即平面得法向量，公式如下：

其中为归一化常数，根据不同的平面有不同的值。

步骤S129：网络对平面实例的深度信息的预测，使用如下损失函数进行监督：

其中D_i表示第i个像素点的真实深度信息,T为转置符。

步骤S13：利用数据集训练卷积神经网络，训练过程中使用Dropblock正则化方法对网络参数权重进行调整；

步骤S131：网络使用Dropblock作为其正则化方法。Dropblock的核心工作就是在特征图中随机生成γ个种子点，然后将种子点周围长宽为width＝7的区域中的元素置0。γ的值可以通过以下公式计算得出：

其中k表示保留每一个激活单元的概率，取值为0.95；N表示卷积神经网络中特征图的数量；f_i表示第i张特征图的尺寸；表示向下取整。

步骤S132：对于每一个特征图F，生成掩膜M，其尺寸与F一致。M中的γ个种子点均服从参数为γ的伯努利分布。对于M中每一个种子点，该点周围长宽均为width的矩形区域内的所有元素值置0。接着将掩膜M应用于特征图F上，即F＝F*M。最后对特征图F归一化：

其中，sum(M)为M中所有元素的数量，zeros(M)表示M中值为0的元素数量。

步骤S2根据训练的卷积神经网络对经过预处理的单张彩色图片进行示例分割和深度估计，该步骤进一步包括：

步骤S21：获取原始彩色图片的尺寸w和h，为了将图片缩放成卷积神经网络输入所需的256*192大小，缩放因子为s_x＝w/256和s_y＝h/192，则缩放的坐标映射关系如下：

其中x₀、y₀为原始图像像素点的坐标，x、y为缩放后的图像上像素点的坐标。

步骤S22：对于映射过程中可能产生的浮点坐标，即可以通过最临近插值算法获得其像素近似值。算法工作将距离最近的输入图像的像素值作为该浮点数坐标的像素值的取值。

步骤S23：将预处理后的单张彩色图片作为输入通过以进训练好的卷积神经网络进行预测，得到其平面实例和深度估计；

步骤S3根据预测得到的平面实例分割和深度估计融合一个三维模型，该步骤进一步包括：

步骤S31：对于在图像中坐标为(u,v),深度为d的像素，通过如下公式可得到其在三维空间中的坐标(x,y,z)：

其中，K为相机的内参数矩阵,-1表示矩阵求逆运算。

与现有技术相比较，本发明具有的有益效果：

快速性：由于特征图中的相近的单元之间具有一定的相似性，采用dropblock正则化方法，一次丢弃数量固定但位置随机的区块，而区块内的元素在空间上是相关的，很大程度上提高了运算的效率。而平面作为三维模型中最常见的几何结构之一，包含了大量的几何约束信息。通过对平面进行提取，可以使三维重建速度更快。

高精度：平面深度估计是通过机器学习进行的，如果训练数据模型太复杂或者数据不充足时，很容易出现过拟合的现象，但这种现象对于实际中的平面深度估计是不利的。通过采用dropblock正则化的方法，以随机丢弃激活值的方式来防止模型的过拟合问题，提高泛化能力。保证了生成模型结果符合预期，提高了平面深度估计的精度。

低成本：由于本方法是对于单目立体视觉技术的改进，只需要单张照片，通过平面实例分割和平面深度估计进行三维重建。减轻了摄像设备的负担，且该方法易操作，不需占用大量的劳动力资源。极大地降低了三维重建的成本。

附图说明

图1为本发明提供的一种基于dropblock的单张彩色图片平面三维重建方法的框架流程图；

图2为本发明提供的一种基于dropblock的单张彩色图片平面三维重建方法中神经网络模型的网络结构图；

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

基于单目相机采集的单张彩色图片的三维重建，在计算机视觉和机器学习中，通过采用卷积神经网络，凭借其在图像处理领域有着巨大的优势，可以获得比传统几何方法更好的结果。dropblock正则化方法，在训练卷积神经网络的卷积层时，通过丢弃数量固定但位置随机的在空间上相关联的区块，很大程度上提高了运算的效率。而利用平面所包含的大量几何约束信息，可以更好地构建三维模型。为此，本发明提供了一种基于dropblock的单张彩色图片平面三维重建方法。

本发明提供一种基于dropblock的单张彩色图片平面三维重建方法，图1所示为本发明基于dropblock的单张彩色图片平面三维重建方法的框架流程图，整体而言，本发明包括3大步骤，步骤S1：使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型；步骤S2：使用经过训练的卷积神经网络对经过预处理的单张彩色图片进行示例分割和深度估计；步骤S3将预测得到的平面实例分割和深度估计融合一个三维模型；

步骤S1：使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型，具体包括如下步骤：

步骤S11：获取ScanNet数据集；

步骤S12：构建所需的卷积神经网络模型；

图2所示为本发明提供的一种基于dropblock的单张彩色图片平面三维重建方法中步骤S12的卷积神经网络网络结构，其进一步包括以下步骤：

步骤S124：通过平面分割解码器赋予图片中的每一个像素点一个编码值，代表其所属平面实例。这里的实例表示不同的平面个体。其使用一种差异损失函数L_C，包括两部分——近损失函数L_near和远损失函数L_far：

L_C＝L_near+L_far

远损失函数L_far则将不同的平面实例的编码均值推远：

λ_ij＝1.5-|μ_i-μ_j|+|1.5-|μ_i+μ_j||

其中为归一化常数，根据不同的平面有不同的值。

其中D_i表示第i个像素点的真实深度信息,T为转置符。

其中Dropblock正则化方法进一步包括以下步骤：

步骤S2：使用经过训练的卷积神经网络对经过预处理的单张彩色图片进行示例分割和深度估计，具体包括如下步骤：

步骤S3：将预测得到的平面实例分割和深度估计融合一个三维模型，具体包括如下步骤：

其中，K为相机的内参数矩阵,-1表示矩阵求逆运算。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于dropblock的单张彩色图片平面三维重建方法，其特征在于，包括以下步骤：

步骤S2：使用经过训练的卷积神经网络对单张彩色图片进行示例分割和深度估计；

步骤S3根据步骤S2得到的平面实例分割和深度估计融合一个三维模型；

其中，步骤S1进一步包括以下步骤：

步骤S11：获取ScanNet数据集；

步骤S12：构建卷积神经网络模型；其中，该模型为在标准卷积神经网络ResNet-101-FPN的基础上扩展平面分割解码器、平面编码解码器和平面深度解码器，三个解码器均为1*1的卷积层；

所述步骤S12进一步包括以下步骤：

步骤S121：卷积神经网络模型的输入为单张彩色图片，其输出特征图的尺寸为256*192*64；

其中，PL和NP分别表示属于平面和非平面的像素点的集合，p_i表示图片中第i个像素点属于平面区域的概率，S＝256*192为图片中像素的数量，sum()函数表示集合中元素的数量；

步骤S123：将平面/非平面区域与ResNet-101-FPN的特征图进行掩膜，然后作为平面编码解码器、平面深度解码器的输入；

步骤S124：通过平面分割解码器赋予图片中的每一个像素点一个编码值，代表其所属平面实例；其使用一种差异损失函数L_C，包括两部分——近损失函数L_near和远损失函数L_far：

L_C＝L_near+L_far

其中C表示一张图片中平面实例数量的真实值，S_C表示一个平面实例中的元素，即像素，x_j表示像素编码值，代表该像素归属的平面示例，μ_i表示一个平面实例的编码均值，符号∨表示取大运算；

远损失函数L_far则将不同的平面实例的编码均值推远：

λ_ij＝1.5-|μ_i-μ_j|+|1.5-|μ_i+μ_j||

步骤S125：使用均值漂移算法对掩膜过的像素编码聚类，得到个平面实例；计算每一个像素在每一个平面上的概率P_ij：

步骤S126：通过平面深度解码器预测图片中的每一个像素点的深度信息；假设三维空间中的平面法向量为表示1*3的实数向量；为了使每个平面的法向量都是唯一的，n计算方式如下：

其中表示平面的单位法向量，方向是由从原点出发垂直指向平面；d表示平面到原点的垂直距离；

其中n_i表示第i个像素深度信息的预测值，表示第i个像素深度信息的真实值；

其中为归一化常数，根据不同的平面有不同的值；

其中D_i表示第i个像素点的真实深度信息，T为转置符；

所述步骤S13进一步包括以下步骤：

步骤S131：网络使用Dropblock作为其正则化方法，其中，Dropblock的核心工作是在特征图中随机生成γ个种子点，然后将种子点周围长宽为width＝7的区域中的元素置0；γ的值可以通过以下公式计算得出：

其中k表示保留每一个激活单元的概率，取值为0.95；N表示卷积神经网络中特征图的数量；f_i表示第i张特征图的尺寸；表示向下取整；

步骤S132：对于每一个特征图F，生成掩膜M，其尺寸与F一致；M中的γ个种子点均服从参数为γ的伯努利分布；对于M中每一个种子点，该点周围长宽均为width的矩形区域内的所有元素值置0；接着将掩膜M应用于特征图F上，即F＝F*M；最后对特征图F归一化：

其中，sum(M)为M中所有元素的数量，zeros(M)表示M中值为0的元素数量；

所述步骤S2进一步包括以下步骤：

步骤S21：获取原始彩色图片的尺寸W和h，并将图片缩放成卷积神经网络输入所需的大小，缩放因子为s_x＝w/256和s_y＝h/192，缩放的坐标映射关系如下：

其中x₀、y₀为原始图像像素点的坐标，x、y为缩放后的图像上像素点的坐标；

步骤S22：对于映射过程中可能产生的浮点坐标，通过最临近插值算法获得其像素近似值；算法工作将距离最近的输入图像的像素值作为该浮点数坐标的像素值的取值；

所述步骤S3进一步包括以下步骤：

步骤S31：对于在图像中坐标为(u，v)，深度为d的像素，通过如下公式可得到其在三维空间中的坐标(x，y，z)：

其中，K为相机的内参数矩阵，-1表示矩阵求逆运算。