CN113963117A

CN113963117A - 一种基于可变卷积深度网络的多视图三维重建方法及装置

Info

Publication number: CN113963117A
Application number: CN202111274560.2A
Authority: CN
Inventors: 李毅; 陈轩; 叶修梓
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-21
Anticipated expiration: 2041-10-29
Also published as: CN113963117B

Abstract

本发明提供一种基于可变卷积深度网络的多视图三维重建方法，包括获取源图像及其对应的多个视角的参考图像；将源图像及所有参考图像全部导入由可变形卷积所构建的多尺度特征提取网络中，得到多个目标关键特征图；将多个目标关键特征图均导入基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，得到迭代优化后的深度图；将迭代优化后的深度图和源图像均导入深度残差网络中进行优化，得到最终深度图并进行三维建模，得到立体视觉图。实施本发明，通过边缘处理算法优化深度图的边缘，使得三维建模所需的深度图更完成和精确，从而克服现有立体视觉图像普适性不强、鲁棒性不高等问题。

Description

一种基于可变卷积深度网络的多视图三维重建方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于可变卷积深度网络的多视图三维重建方法及装置。

背景技术

近年来，随着计算机技术和数字媒体技术的飞速发展，物体的图像变得更容易获取，但是图像只是简单的二维信息，它能传达的信息有限。因此，如何获取物体更多的信息，逐渐成为当前研究的重点。

于是，基于图像的三维重建技术应运而生，也逐渐应用于机器人、无人机、自动驾驶等领域。基于图像的三维重建技术能对特定几张图像信息进行处理，利用视觉几何技术建立起相应的三维模型，因此相对比传统借助昂贵额激光和雷达机器扫描获取有着无可比拟的优点，并且随着近些年深度学习的发展，无论是重建速度、精度和完整性都得到了很大增强。基于图像的三维重建技术也逐渐成为计算机视觉领域中的一个重要的研究领域，同时也是其他研究领域的基础。比如，机器人和无人驾驶中的路径识别与规划问题，虚拟现实技术中虚拟场景的搭建，电影和游戏中对现实场景和想象出来的空间的构建等。

基于图像的三维重建技术一般分为稀疏重建和稠密重建。其中，基于图像的稀疏重建的主要目的是恢复图像的相机参数，为随后的稠密重建提供相应的相机参数；稠密重建是基于像素级别的重建，其目的是能够重建出更加稠密和完整的三维模型，得到的三维模型的结构和细节部分更加清晰，更加符合现实需求。目前，稀疏重建中的运动恢复结构方法和稠密重建中的多视图立体几何是当前最流行并且广泛应用的重建技术。

传统的多视图三维重建大致分为基于体素、基于表面演化、基于深度图等领域。其中，基于深度图的更加简洁和灵活，但是传统方法对于镜面反射、纹理等难以处理，重建的完整性较低，并且速度较慢。基于深度学习的重建方法可以更好的利用全局的语义信息，重建精度和速度都有很大进步，基于深度学习的方法中也有些许不同。例如，有些学者使用网络去提取图像特征，然后通过单应性变换，构造代价空间，然后得到深度图去优化，最后根据深度图像和源图像构建三维模型，又如，还有些学者提出用网络提取特征后，采用了一个随机的迭代算法来实现近似最近邻域的算法，去估计和迭代其深度，最后根据深度图像和源图像构建三维模型。

但是，现有的多视图三维重建方法中特征提取不足，参数是提前设计好的，导致只能针对特定场景效果，造成立体视觉图像普适性不强、鲁棒性不高。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于可变卷积深度网络的多视图三维重建方法及装置，通过边缘处理算法优化深度图的边缘，使得三维建模所需的深度图更完成和精确，从而克服现有立体视觉图像普适性不强、鲁棒性不高等问题。

为了解决上述技术问题，本发明实施例提供了一种基于可变卷积深度网络的多视图三维重建方法，所述方法包括以下步骤：

获取源图像及其对应的多个视角的参考图像；

将所述源图像及所有的参考图像全部导入预先由可变形卷积所构建的多尺度特征提取网络中进行目标关键特征提取，得到多个目标关键特征图；

将所述多个目标关键特征图均导入预先定义的基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，得到模型迭代优化计算结束之后输出的深度图；其中，在所述基于学习的补丁匹配迭代模型的迭代过程中，若迭代初始，则当前次单个目标关键特征图作为初始迭代的输入；若迭代已开始，则当前次单个目标关键特征图会与上一次迭代得到的深度图连接起来作为当前次迭代的输入；

将所述模型迭代优化计算结束之后输出的深度图和所述源图像均导入预先定义的深度残差网络中进行优化，得到最终优化后的深度图，且进一步根据所述最终优化后的深度图，进行三维建模，以得到立体视觉图。

其中，所述多尺度特征提取网络为可变形卷积网络，是通过对原有卷积层得到的特征图施加一个变形偏移量的卷积层来实现目标关键特征提取。

其中，所述基于学习的补丁匹配迭代模型中的像素深度匹配是通过预设的匹配代价计算方法来实现的。

其中，所述匹配代价计算方法是通过group-wise相关性计算每个像素的每个depth假设值的代价来实现的，具体步骤如下：

首先，计算出每个group的相似性；然后，通过一个带有3D卷积网络将每个group的代价被投影到参考帧的每个像素的每个depth上，，即可得到每个像素的每个depth假设值的一个单独的代价值。

其中，通过公式

计算出每个group的相似性；其中，

w_i(p)表示像素P对参考图像I_i的权重，且w_i(p)＝max{P_i(p，j)|j＝0，1，...，D-1}；

表示对应group的相似向量，且

F₀(p)^g表示第g组源图像的特征；F_i(p_i，j)^g表示第g组参考图像的特征；N表示源图像和参考图像累加的总数；p_i，j表示参考图像中对应源图像的像素P。

其中，所述基于学习的补丁匹配迭代模型中每一次迭代得到的深度图的深度值

是通过公式

来计算出来的；其中，

表示需要被偏移点的周围坐标；W_p表示偏移网格距离估计的权值；

表示每个像素的坐标偏移量；

表示上一次迭代得到深度图的像素P；

表示上一次迭代得到的深度图的深度值。

本发明实施例还提供了一种基于可变卷积深度网络的多视图三维重建装置，包括：

图像获取单元，用于获取源图像及其对应的多个视角的参考图像；

图像特征提取单元，用于将所述源图像及所有的参考图像全部导入预先由可变形卷积所构建的多尺度特征提取网络中进行目标关键特征提取，得到多个目标关键特征图；

深度图迭代获取单元，用于将所述多个目标关键特征图均导入预先定义的基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，得到模型迭代优化计算结束之后输出的深度图；其中，在所述基于学习的补丁匹配迭代模型的迭代过程中，若迭代初始，则当前次单个目标关键特征图作为初始迭代的输入；若迭代已开始，则当前次单个目标关键特征图会与上一次迭代得到的深度图连接起来作为当前次迭代的输入；

优化重建立体图单元，用于将所述模型迭代优化计算结束之后输出的深度图和所述源图像均导入预先定义的深度残差网络中进行优化，得到最终优化后的深度图，且进一步根据所述最终优化后的深度图，进行三维建模，以得到立体视觉图。

其中，所述多尺度特征提取网络为可变形卷积网络，是通过对原有卷积层得到的特征图施加一个变形偏移量的卷积层来实现目标关键特征提取

实施本发明实施例，具有如下有益效果：

本发明通过由可变形卷积所构建的多尺度特征提取网络中进行目标关键特征提取，再通过基于学习的补丁匹配迭代模型进行像素深度匹配及边缘处理迭代优化，使得深度图的边缘得到优化，并让边缘得到优化的深度图和源图像进一步重组优化，使得三维建模所需的深度图更完成和精确，从而最终得到的得到立体视觉图能克服现有立体视觉图像普适性不强、鲁棒性不高等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种基于可变卷积深度网络的多视图三维重建方法的流程图；

图2为本发明实施例中提供的一种基于可变卷积深度网络的多视图三维重建方法的应用场景图；

图3为本发明实施例提供的一种基于可变卷积深度网络的多视图三维重建装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提供的一种基于可变卷积深度网络的多视图三维重建方法，所述方法包括以下步骤：

步骤S1、获取源图像及其对应的多个视角的参考图像；

具体过程为，输入N个视角大小为W×H的图片，选取其中I₀作为源图像，其他

作为参考图像，并将这些图像分别处理为

的格式。

步骤S2、将所述源图像及所有的参考图像全部导入预先由可变形卷积所构建的多尺度特征提取网络中进行目标关键特征提取，得到多个目标关键特征图；

具体过程为，首先，基于可变形卷积，预先构建出多尺度特征提取网络，使得多尺度特征提取网络为可变形卷积网络，是通过对原有卷积层得到的特征图施加一个变形偏移量的卷积层来实现目标关键特征提取。

应当说明的是，鉴于传统的卷积核通常是固定大小核尺寸，造成它对于未知的变化适应性差，泛化，能力不强，因此可变形卷积是在传统卷积基础上增加了调整卷积核的方向向量，使卷积核的形态更贴近特征物，可变形卷积实现与传统卷积基本类似。由于可变形卷积的卷积核的作用是为了提取输入物的特征，只是对原有卷积层得到的特征图施加一个卷积层，用以获取可变形卷积变形的偏移量。同时，在训练的时候，用于生成输出特征的卷积核和用于生成偏移量的卷积核是同步学习的。

然后，将上述步骤S1中的源图像和所有参考图像一起作为输入，送入多尺度特征提取网络中(多尺度特征网络是类似FPN的金字塔式架构)，经过多层卷积后，将提取的特征分别按照经过卷积的层数分为多个部分，并对各部分的输出部分都进行可变形卷积处理作为下一层卷积输入，使网络能够准确提取目标关键特征。

步骤S3、将所述多个目标关键特征图均导入预先定义的基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，得到模型迭代优化计算结束之后输出的深度图；其中，在所述基于学习的补丁匹配迭代模型的迭代过程中，若迭代初始，则当前次单个目标关键特征图作为初始迭代的输入；若迭代已开始，则当前次单个目标关键特征图会与上一次迭代得到的深度图连接起来作为当前次迭代的输入；

具体过程为，首先，预先定义基于学习的补丁匹配迭代模型，该模型具有自适应初始化特性、自适应传播特性和自适应评估特性。其中，

(1)自适应初始化特性

在补丁匹配的初次迭代时，用随机产生的深度假设作为第一次传播的基准，随机的深度假设由预先定义的逆深度范围[d_min，d_max]决定并产生，同时给每一个像素多个深度值假设，将深度范围划分为若干区间，使之均匀的分布于预定的逆深度范围之类，并使每个区间被深度假设覆盖，这样做一方面提高多样性，同时能使我们的网络能够运行在复杂和大规模场景中。

对于后面的迭代，则以上一阶段产生的深度估计作为基础，同时在一个深度范围R内对每一个像素进行深度扰动，并且随着迭代的继续，逐步减小扰动的范围，这样做能进一步丰富深度假设，同时进一步细化结果，纠正前面迭代的错误。

(2)自适应传播特性

同一个物理表面的深度值通常存在相关性，因此，我们放弃以前的从一组静态的相邻像素中传播深度假设，而是采用自适应的方式来进行传播，他从同一个物理表面进行传播，这种方法对比之前能更快的收敛，并且同时可以从弱纹理和无纹理区域采集更多有用的深度假设，我们基于在可变形卷积网络上实现自适应传播。我们的模型学习了额外的二维偏移，并将它们应用在固定的二维偏移上，组织成一个网格。我们在目标图片上使用1个2DCNN学习每个像素的额外二维偏移，并通过双线性插值得到深度假设。

(3)自适应评估特性

(I)可微分的warping：利用内在矩阵

和源图像0和参考图像i的相对变换

计算相对应的像素p_i，j：＝p_i(d_j)在参考图像中对应原图像的像素p，以齐次坐标给出，深度假设d_j：＝d_j(p)如下:

因此，得到了经过变换后的视图i的特征图和第j组(每像素不同)的深度假设。

(II)匹配代价计算：该匹配代价计算方法是通过group-wise相关性计算每个像素的每个depth假设值的代价来实现的，具体步骤如下：

其中，通过公式

计算出每个group的相似性；其中，

表示对应group的相似向量，且

由此可见，对于多视立体视觉，这一步必须整合来自任意数量的源图像信息到单个像素的单个深度值的代价值。为此通过group-wise(将特征的相关性通道降低至Group的个数，减少内存)相关性计算每个假设值的代价。通过一个像素级的view权重来聚合views；在代价聚合过程中，可以利用可见性信息来提高鲁棒性；最后通过一个小网络每个group的代价被投影到参考帧的每个像素的每个depth上。

此时，F₀(p)^g和F_i(p_i，j)^g表示第g组的特征，它们的相似性用

表示对应group的相似向量。同时，为了计算像素级的view权重，利用在stage3的最初的深度假设集的多样性。用w_i(p)表示参考图像I_i在像素p的可见性信息。权重被计算一次后被锁定，上采样到更精细的stage。一个简单的像素级view权重计算网络由3D卷积(1x1x1)和非线性sigmoid组成，输入初始的相似性S_i,输出值在0-1之间，

最终到每个像素的每个group的相似性

用一个带有3D卷积(1x1x1)的小网络即可得到每个像素的每个depth假设值的一个单独的代价值。

(III)自适应空间代价传播：传统的MVS匹配算法通常在一个空间域上聚合代价来提高匹配的鲁棒性和一个隐含的平滑效果。可以说，多尺度特征提取已经从一个大的接受域中包含了邻域信息。不过，还是使用空间代价聚合。为了防止聚合穿过曲面边界的问题，提出了基于Patchmatch和AANet的自适应代价聚合。对于一个空间窗口K_e个像素p被划分成栅格，学习每个像素的附加偏移量

聚合空间代价

定义为

其中，w_k和d_k基于特征和深度相似性加权成本C。

通过在参考帧的特征图上做2D CNN得到的。被采样的位置都在边界内，采样的位置保持在对象内边界，而对于无纹理区域，采样点聚集在一个更大的空间环境中可以潜在地减少估计的不确定性。

(IV)深度回归：使用softmax激活函数，将代价C转化为概率P，用于亚像素深度回归和ground truth估计。像素p处的累积深度值D(p)表示为

(VI)边缘处理：通过边缘检测模块去预测原始图片特征和深度图边缘的坐标偏差，过程是通过使用经过上一步基于学习的补丁匹配迭代得到的深度图，并且将原图像特征降采样到与深度图像相同的分辨率，然后将深度图和处理后的原图像连接起来，作为特征提取网络的输入，输出得到中间特征，为了更好地提取深度图像的额边缘和获取显著的特征，我们通过扩大和缩小相应的特征，最后我们通过卷积去预测相应坐标的偏移量。

一般情况下位于深度边界上的像素通常具有几个潜在的深度，例如，位于边缘和背景的交叉处的点。然而，以往的方法更倾向于将它们预测为两者之间的深度，这显然是不合理的。值得注意的是，在一个相似的语义域中的深度本身是一致的，像素loc在同一几何平面上通常有相似的深度。利用基于光流的方法直接进行的坐标变换预测，我们的方法允许每个像素选择取潜在的深度而不是取中间值，使点属于对象或背景，避免了成本体积法中深度边界的模糊性，以便更好地预测深度边界。

即，每一次迭代得到的深度图的深度值

是通过公式

来计算出来的；其中，

表示每个像素的坐标偏移量；

表示上一次迭代得到深度图的像素P；

表示上一次迭代得到的深度图的深度值。

最后，将步骤S2中的多个目标关键特征图均导入该基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，从而得到模型迭代优化计算结束之后输出的深度图。

步骤S4、将所述模型迭代优化计算结束之后输出的深度图和所述源图像均导入预先定义的深度残差网络中进行优化，得到最终优化后的深度图，且进一步根据所述最终优化后的深度图，进行三维建模，以得到立体视觉图。

具体过程为，首先，预先定义深度残差网络。

接着，将经过上述步骤S3得到迭代优化计算结束之后输出的深度图和源图像作为输入，输入到深度残差网络中。为了避免某一深度尺度发生偏移，首先将输入的深度归一化到[0，1]并在细化后再恢复，该深度残差网络从迭代优化计算结束之后输出的深度图和源图像中提取特征，并对得到的深度特征应用反卷积，上采样到图像特征大小，接着将得到的两个特征连接并应用了多个二维卷积层得到深度残差，然后添加到上一步得到的深度估计中，最后得到优化后的深度图。

此时，最终优化后的深度图的深度值为

最后，根据最终优化后的深度图进行三维建模，得到立体视觉图。

如图2所示，为本发明实施例中的基于可变卷积深度网络的多视图三维重建方法的应用场景图。采用了基于可变性卷积的多视图三维重建算法，并通过边缘处理算法优化深度图的边缘，使得到的深度图更完成和精确，且算法能够通过输入多张图片和相应的相机参数去估计图像深度，进而进行三维建模，最终得到图像中物体的三维模型。

如图3所示，为本发明实施例中，提供的一种基于可变卷积深度网络的多视图三维重建装置，包括：

图像获取单元110，用于获取源图像及其对应的多个视角的参考图像；

图像特征提取单元120，用于将所述源图像及所有的参考图像全部导入预先由可变形卷积所构建的多尺度特征提取网络中进行目标关键特征提取，得到多个目标关键特征图；

深度图迭代获取单元130，用于将所述多个目标关键特征图均导入预先定义的基于学习的补丁匹配迭代模型中进行像素深度匹配及边缘处理的迭代优化计算，得到模型迭代优化计算结束之后输出的深度图；其中，在所述基于学习的补丁匹配迭代模型的迭代过程中，若迭代初始，则当前次单个目标关键特征图作为初始迭代的输入；若迭代已开始，则当前次单个目标关键特征图会与上一次迭代得到的深度图连接起来作为当前次迭代的输入；

优化重建立体图单元140，用于将所述模型迭代优化计算结束之后输出的深度图和所述源图像均导入预先定义的深度残差网络中进行优化，得到最终优化后的深度图，且进一步根据所述最终优化后的深度图，进行三维建模，以得到立体视觉图。

实施本发明实施例，具有如下有益效果：

值得注意的是，上述装置实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于可变卷积深度网络的多视图三维重建方法，其特征在于，所述方法包括以下步骤：

获取源图像及其对应的多个视角的参考图像；

2.如权利要求1所述的基于可变卷积深度网络的多视图三维重建方法，其特征在于，所述多尺度特征提取网络为可变形卷积网络，是通过对原有卷积层得到的特征图施加一个变形偏移量的卷积层来实现目标关键特征提取。

3.如权利要求1所述的基于可变卷积深度网络的多视图三维重建方法，其特征在于，所述基于学习的补丁匹配迭代模型中的像素深度匹配是通过预设的匹配代价计算方法来实现的。

4.如权利要求3所述的基于可变卷积深度网络的多视图三维重建方法，其特征在于，所述匹配代价计算方法是通过group-wise相关性计算每个像素的每个depth假设值的代价来实现的，具体步骤如下：

首先，计算出每个group的相似性；然后，通过一个带有3D卷积网络将每个group的代价被投影到参考帧的每个像素的每个depth上，即可得到每个像素的每个depth假设值的一个单独的代价值。

5.如权利要求4所述的基于可变卷积深度网络的多视图三维重建方法，其特征在于，通过公式

计算出每个group的相似性；其中，

表示对应group的相似向量，且

6.如权利要求5所述的基于可变卷积深度网络的多视图三维重建方法，其特征在于，所述基于学习的补丁匹配迭代模型中每一次迭代得到的深度图的深度值

是通过公式

来计算出来的；其中，

表示每个像素的坐标偏移量；

表示上一次迭代得到深度图的像素P；

表示上一次迭代得到的深度图的深度值。

7.一种基于可变卷积深度网络的多视图三维重建装置，其特征在于，包括：

8.如权利要求7所述的基于可变卷积深度网络的多视图三维重建装置，其特征在于，所述多尺度特征提取网络为可变形卷积网络，是通过对原有卷积层得到的特征图施加一个变形偏移量的卷积层来实现目标关键特征提取。