CN112907641B

CN112907641B - 一种基于细节信息保持的多视点视图深度估计方法

Info

Publication number: CN112907641B
Application number: CN202110151211.5A
Authority: CN
Inventors: 周文晖; 黄鸿飞; 张桦; 戴国骏; 徐风帆; 沈蓉豪
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2024-04-09
Anticipated expiration: 2041-02-03
Also published as: CN112907641A

Abstract

本发明公开了一种基于细节信息保持的多视点视图深度估计方法。本方法首先利用U型神经网络提取出图片序列在不同尺度的特征，在同一尺度的特征中，分为两个分支：一个分支进行分割操作，得到高质量细节保持的目标分割图；一个分支进行为后续的深度估计进行特征提取。将不同尺度的特征与同尺度下的分割图F_s相乘，按照单应矩阵映射融合为3D特征体素，最后通过回归得到深度图。将该深度图与对应大小的F_s逐像素相乘，通过由粗到细不同尺度的优化，输出最终的深度图，其中只有目标的深度信息有效。本发明提出的基于细节信息保持的多视点视图深度估计方法，避免了重建中背景对目标的影响，提高了深度估计的精度。

Description

一种基于细节信息保持的多视点视图深度估计方法

技术领域

本发明涉及深度估计领域，具体是一种基于细节信息保持的多视点视图深度估计方法。

背景技术

重建真实世界中物体的三维建模一直是计算机视觉领域热点之一。图像是真实世界中三维场景在二维平面的一个投影。传统多视点三维重建方法耗时长，易受到复杂背景的干扰，并存在因深度估计不准确而导致重建质量差等问题。近年来，随着深度相机的普及，基于RGB-D相机的三维重建研究取得了显著进展，但仍存在深度分辨率不高，深度图过度平滑等缺点，导致重建的模型细节信息丢失。

基于图像的传统三维重建通常采用从运动恢复结构的技术，利用立体匹配算法计算出每帧图像对应的深度图，形成每帧图像的三维点云；并通过相邻帧运动估计获取每帧图像的相机位姿，进而将每帧图像的三维点云融合成最终的三维模型。然而传统三维重建技术通常存在以下缺点：在大尺度背景下重建小尺度目标时，特征提取与匹配易受到背景纹理干扰，使得估计的位姿不够精确，且容易丢失目标的细节信息；此外，传统立体匹配算法在遮挡和弱纹理区域中难以精确估计出深度信息。

为解决传统三维重建技术的局限，本发明采用深度学习方法，在多视点视图深度估计的同时，实现基于细节信息保持的目标分割，得到目标区域，从而减少背景的影响，提高位姿和深度估计的精度。

发明内容

本发明的目的是针对现有技术不足，提供一种基于细节信息保持的多视点视图深度估计方法。本发明其输入为一组多视点图像，输出为主视点的深度图，输出的深度图中，只有目标区域有深度信息，其他区域没有深度信息。

为了实现上述目的，本发明的技术方案包括如下步骤：

步骤1、输入多视点图像序列，尺寸为W×H，W为图像的宽，H为图像的高；多视点图像序列包含一幅主视点图像C_s和其他视点图像C_i，i＝1,2...N，N为视点编号。将多视点图像序列输入到一个U型神经网络中，提取图像语义特征。

所述的U型神经网络的定义如下：卷积核的大小为3×3，池化层为最大池化层，上采样的方式选择转置卷积。在相同的尺度且未进入多分支的情况下，通道数不变；S/8尺度、S/4尺度、S/2尺度和S尺度对应的通道数分别为1024、512、256和128。将尺度为S×S的多视点图像输入到U型神经网络中，首先经过三层卷积层，得到的特征图尺度为S×S×128；将/>做最大池化并增加一倍，经过三层卷积，得到了(S/2)×(S/2)×256的特征图/>将特征图/>做最大池化并增加一倍，经过三层卷积，得到了(S/4)×(S/4)×512的特征图将/>做最大池化增加一倍，得到(S/8)×(S/8)×1024的特征图/>将特征图/>进行转置卷积并两两相加，得到(S/4)×(S/4)×512的特征图/>将特征图/>进行转置卷积并相加，得到(S/2)×(S/2)×256的特征图/>将特征图/>进行转置卷积并两两相加，得到S×S×128的特征图。第十三层的特征图尺度为原图的四分之一，是最大的尺度的深度估计；第十六层的特征图尺度为原图的二分之一，是中间尺度的深度估计；第十九层的特征尺度与原图相等的，是最精细尺度的深度估计。

步骤2、将U型神经网络中的第十三层输出特征图对应的特征O₃输入到两个分支网络中，其中一个分支网络起到目标分割的作用，将特征O₃通过三层卷积层得到S/4尺度的分割图S₃，另一个分支网络起到特征提取的作用，将特征O₃通过三层卷积层得到特征图F₃，将S₃与F₃逐像素相乘，步骤如下：取出特征图F₃，其大小为(S/4)×(S/4)，取语义分割图S₃，其大小为(S/4)×(S/4)，然后两个矩阵逐像素相乘，逐像素相乘的过程如下：取特征图F₃第i行第j列的元素F_3|i,j(i＝0,1...S,j＝0,1...S)，取S₃图的第i行第j列元素S_3|i,j(i＝0,1...S,j＝0,1...S)，两者相乘得到Output_i,j，输出图的尺寸仍为(S/4)×(S/4)，然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D特征体素V₃，尺寸为(S/4)×(S/4)×256。

步骤3.将3D特征体素V₃，经过三层3D卷积进行特征提取，第一层输出尺度为(S/4)×(S/4)×256的特征体素，第二层输出尺度为(S/4)×(S/4)×128的特征体素，第三层输出尺度为(S/4)×(S/4)×64的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_3d，最后对代价体素V_3d进行回归计算得到了尺寸为(S/4)×(S/4)×1的深度估计图/>并与分割图S₃逐像素相乘和上采样，得到新的深度估计图DM_3d，图中仅目标区域深度有效。

步骤4、将深度估计图DM_3d上采样，得到(S/2)×(S/2)×1的深度图DM₃，将U型神经网络中的第十六层的特征O₂输入到两个分支网络，其中一个分支网络起到语义分割的作用，将O₂通过三层卷积层得到(S/2)尺度的分割图S₂，另一个分支网络进行特征提取，将O₂通过三层卷积层得到特征图F₂，将S₂与F₂逐像素相乘，步骤如下：取出特征图F₂，其大小为(S/2)×(S/2)，取语义分割图S₂，其大小为(S/2)×(S/2)，然后两个矩阵逐像素相乘，得到的结果大小为(S/2)×(S/2)，然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D的特征体素V₂，尺寸为(S/2)×(S/2)×128。

步骤5、将3D特征体素V₂，经过三层3D卷积进行特征提取，第一层输出尺度为(S/2)×(S/2)×128的特征体素，第二层输出尺度为(S/2)×(S/2)×64的特征体素，第三层输出尺度为(S/2)×(S/2)×32的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_2d，最后对代价体素V_2d进行回归计算得到了尺寸为(S/2)×(S/2)×1的深度图/>并与分割图S₂逐像素相乘和上采样，得到新的深度估计图DM_2d，图中仅目标区域深度有效。

步骤6、将深度估计图DM_2d上采样，得到S×S×1的深度图DM₂，将U型神经网络中的第十九层的特征O₁输入到两个分支网络，其中一个分支网络起到语义分割的作用，将O₁通过三层卷积层得到S尺度的分割图S₁，另一个分支网络进行特征提取，将O₁通过三层卷积层得到特征图F₁，将S₁与F₁逐像素相乘，步骤如下：取出特征图F₁，其大小为S×S，取语义分割图S₁，其大小为S×S，然后两个矩阵逐像素相乘，得到的结果大小为S×S，然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D的特征体素V₁，尺寸为S×S×64。

步骤7、将3D特征体素V₁，经过三层3D卷积进行特征提取，第一层输出尺度为S×S×64的特征体素，第二层输出尺度为S×S×32的特征体素，第三层输出尺度为S×S×16的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_1d，最后对代价体素V_1d进行回归计算得到了尺寸为S×S×1的深度估计图/>并与分割图S₁逐像素相乘和上采样，得到最终的深度估计图DM₁，图中仅目标区域深度有效。

本发明的有益效果如下：

本发明提出了一种新的神经网络模型，实现了细节信息保持的多视点视图深度估计。首先将多视点图片输入到U型神经网络，提取出不同尺度的特征信息，每个尺度的特征输入到两个分支：一个分支提取出图像中目标区域信息，另一个分支提取更深层次的特征。为了减少背景信息对深度估计的影响，约束特征于目标区域，将上述分支提取出的特征与提取出的目标区域信息相乘；然后，相乘后的特征通过单应矩阵映射，融合为3D特征体素，该体素经过几层卷积后进行回归得到深度图。为了约束估计的深度图于目标区域，得到的深度图与目标区域信息相乘，然后输入到更小尺度上去。最后融合不同尺度的目标区域信息与深度信息，对估计的深度进行由粗到细的优化。本发明引入目标区域信息对特征提取与深度估计进行约束，并利用多尺度进行由粗到细的优化，实现了细节信息保持的多视点视图深度估计。

附图说明

图1整体神经网络模型架构图。

图2编解码神经网络结构图。

图3时编编解码提取特征时的不同分支。

图4逐像素相乘图。

图5三维特征体素估计深度图。

图6神经网络详细图解。

具体实施方式

下面结合附图和实例对本发明作进一步说明。

如图1所示，基于多视点的细粒度深度估计方法，大概框架如下：

输入的图像序列，主视角图像为C_s,其他视角为图像为C_i(i＝0,1...N),先经过一个编解码的神经网络，并且在不同尺度上，将不同层次的特征(S/2尺度的特征需要和S/4尺度预测出来的DM₃进行融合，S尺度的特征需要和S/2尺度预测出来的DM₂进行融合)按照单应矩阵映射到3D空间融合为3D特征体素，将体素转换到3D的代价体素，最后通过由粗到细的优化和回归，得到估计的最终深度图DM₁。在下采样的两个小尺度中，尺度为S/4、S/2的深度估计图DM₃、DM₂，和上一层特征提取的特征图映射融合成尺度为(S/2)×(S/2)×128、S×S×64特征体素。

图2是一个U型神经网络结构，输入的图像序列，主视角图像为C_s，其他视角的图像为C_i(i＝0,1...N)，为了编解码不同层次特征信息，从而从不同的尺度来估计与逐步优化深度。第十九层的特征尺度与原图相等的，是最精细尺度的深度估计，第十六层的特征图尺度为原图的二分之一，是中间尺度的深度估计；第十三层的特征图尺度为原图的四分之一，是最大的尺度的深度估计。

U型神经网络的定义如下：卷积核的大小为3×3，池化层为最大池化,上采样的方式选择转置卷积。在相同的尺度且未进入多分支的情况下，通道数不变，S/8尺度，S/4尺度，S/2尺度，S尺度对应的通道数分别为1024，512，256，128。将尺度为S×S的多视点图像输入到U型神经网络中，首先经过三层卷积层，得到的特征图尺度为S×S×128；将/>做最大池化并增加一倍，经过三层卷积，得到了(S/2)×(S/2)×256的特征图/>将特征图/>做最大池化并增加一倍，经过三层卷积，得到了(S/4)×(S/4)×512的特征图/>将/>做最大池化增加一倍，得到(S/8)×(S/8)×1024的特征图/>将特征图/>进行转置卷积并两两相加，得到(S/4)×(S/4)×512的特征图/>将特征图/>进行转置卷积并相加，得到(S/2)×(S/2)×256的特征图/>将特征图/>进行转置卷积并两两相加，得到S×S×128的特征图。

图3是编解码神经网络特征提取时的两个分支，在编解码的特征提取的某个尺度上，将特征输入到两个分支：分支1起到分割作用，经过三层卷积层后，得到了分割图S；分支2继续进行特征提取，经过三层卷积层后，得到特征图F，将F与分割图S逐像素相乘后按照单应矩阵映射为3D特征体素，再经过3D卷积层与回归获得当前预测的深度图D，将深度图D与分割图S相乘，得到最终预测的深度图。

图4是编解码神经网络语义分割特征图与图像特征层逐像素相乘示意图，假定某视点图像提取出的某层特征F_ea，大小为S×S,该图像的某个尺度的分割图，大小为S×S，逐像素相乘的过程如下：取特征图F_ea第i行第j列的元素F_ea|i,j(i＝0,1...S,j＝0,1...S)，取F_s图的第i行第j列元素F_s|i,j(i＝0,1...S,j＝0,1...S)，两者相乘得到Output_i,j，输出图的尺寸仍为S×S。

图5是3D特征体素实现由粗到细的优化结构图。首先将编解码中神经网络的分割分支得到的分割图S₃与提取出的特征图进行逐像素相乘，再经过单应矩阵将不同视角的特征图映射到不同的位置并转化为3D体素，该3D体素经过三层3D卷积层提取特征，得到的3D体素通道数缩小为原来的四分之一。按照基于方差的度量方法，将缩小的3D特征体素转换为代价体素，最后对这个代价体素进行回归计算并与对应尺寸的分割图S₃逐像素相乘和上采样，得到大小为(S/2)×(S/2)的估计图DM₃，然后将估计图DM₃和编解码神经网络中尺度为(S/2)×(S/2)的特征图结合起来，经过同样的步骤，得到估计图DM₂,将DM₂和编解码神经网络中尺度为S×S的特征图结合起来，进行卷积操作和深度回归，最终得到了尺度为S×S的深度估计图，S×S的深度估计图与S×S大小的分割图S₁逐像素相乘得到的结果，即为本神经网络结构的输出。

图6是本发明的详细的神经网络结构图。大体结构与每个模块在上述已经说明。

Claims

1.一种基于细节信息保持的多视点视图深度估计方法，其特征在于输入为一组多视点图像，输出为主视点的深度图，输出的深度图中，只有目标区域有深度信息，其他区域没有深度信息；具体包括如下步骤：

步骤1、输入多视点图像序列，尺寸为W×H，W为图像的宽，H为图像的高；多视点图像序列包含一幅主视点图像C_s和其他视点图像C_i；将多视点图像序列输入到一个U型神经网络中，提取图像语义特征；

步骤2、将U型神经网络中的第十三层输出特征图对应的特征O₃输入到两个分支网络中，其中一个分支网络将特征O₃通过三层卷积层得到S/4尺度的分割图S₃，另一个分支网络将特征O₃通过三层卷积层得到特征图F₃，将S₃与F₃逐像素相乘，获得3D特征体素V₃；其中S是图像的长度；

步骤3.将3D特征体素V₃经过三层3D卷积进行特征提取后，按照基于方差的度量方法得到新的深度估计图DM_3d；

步骤4、将深度估计图DM_3d上采样，得到(S/2)×(S/2)×1的深度图DM₃；同时将U型神经网络中的第十六层的特征O₂输入到两个分支网络，得到S/2尺度的分割图S₂和特征图F₂，将S₂与F₂逐像素相乘获得3D特征体素V₂；

步骤5、将3D特征体素V₂经过三层3D卷积进行特征提取后，按照基于方差的度量方法得到新的深度估计图DM_2d；

步骤6、将深度估计图DM_2d上采样，得到S×S×1的深度图DM₂；将U型神经网络中的第十九层的特征O₁输入到两个分支网络，得到S尺度的分割图S₁和特征图F₁，将S₁与F₁逐像素相乘得到3D特征体素V₁；

步骤7、将3D特征体素V₁，经过三层3D卷积进行特征提取按照基于方差的度量方法得到新的最终深度估计图DM₁。

2.根据权利要求1所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤1所述的U型神经网络的定义如下：

卷积核的大小为3×3，池化层为最大池化层，上采样的方式选择转置卷积；在相同的尺度且未进入多分支的情况下，通道数不变；S/8尺度、S/4尺度、S/2尺度和S尺度对应的通道数分别为1024、512、256和128；将尺度为S×S的多视点图像输入到U型神经网络中，首先经过三层卷积层，得到的特征图尺度为S×S×128；将/>做最大池化并增加一倍，经过三层卷积，得到了(S/2)×(S/2)×256的特征图/>将特征图/>做最大池化并增加一倍，经过三层卷积，得到了(S/4)×(S/4)×512的特征图/>将/>做最大池化增加一倍，得到(S/8)×(S/8)×1024的特征图/>将特征图/>进行转置卷积并两两相加，得到(S/4)×(S/4)×512的特征图/>将特征图/>进行转置卷积并相加，得到(S/2)×(S/2)×256的特征图将特征图/>进行转置卷积并两两相加，得到S×S×128的特征图；第十三层的特征图尺度为原图的四分之一，是最大的尺度的深度估计；第十六层的特征图尺度为原图的二分之一，是中间尺度的深度估计；第十九层的特征尺度与原图相等的，是最精细尺度的深度估计。

3.根据权利要求2所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤2所述的将S₃与F₃逐像素相乘获得3D特征体素V₃，具体如下：

取出特征图F₃，其大小为(S/4)×(S/4)，取语义分割图S₃，其大小为(S/4)×(S/4)；然后两个矩阵逐像素相乘，逐像素相乘的过程如下：取特征图F₃第i行第j列的元素F_3|i,j，取S₃图的第i行第j列元素S_3|i,j，两者相乘得到Output_i,j，输出图的尺寸仍为(S/4)×(S/4)，其中i＝0,1...S,j＝0,1...S；然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D特征体素V₃，尺寸为(S/4)×(S/4)×256。

4.根据权利要求1或3所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤3具体实现如下：

3D特征体素V₃经过三层3D卷积进行特征提取，第一层输出尺度为(S/4)×(S/4)×256的3D特征体素，第二层输出尺度为(S/4)×(S/4)×128的3D特征体素，第三层输出尺度为(S/4)×(S/4)×64的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_3d，最后对代价体素V_3d进行回归计算得到尺寸为(S/4)×(S/4)×1的深度估计图/>将深度估计图/>与分割图S₃逐像素相乘和上采样，得到新的深度估计图DM_3d，图中仅目标区域深度有效。

5.根据权利要求4所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤4所述的将S₂与F₂逐像素相乘获得3D特征体素V₂，具体如下：

取出特征图F₂，其大小为(S/2)×(S/2)，取语义分割图S₂，其大小为(S/2)×(S/2)，然后两个矩阵逐像素相乘，得到的结果大小为(S/2)×(S/2)，然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D的特征体素V₂，尺寸为(S/2)×(S/2)×128。

6.根据权利要求5所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤5具体实现如下：

3D特征体素V₂经过三层3D卷积进行特征提取后，第一层输出尺度为(S/2)×(S/2)×128的3D特征体素，第二层输出尺度为(S/2)×(S/2)×64的3D特征体素，第三层输出尺度为(S/2)×(S/2)×32的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_2d，最后对代价体素V_2d进行回归计算得到尺寸为(S/2)×(S/2)×1的深度图/>并与分割图S₂逐像素相乘和上采样，得到新的深度估计图DM_2d，图中仅目标区域深度有效。

7.根据权利要求6所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤6所述的将S₁与F₁逐像素相乘获得3D特征体素V₁，具体如下：

取出特征图F₁，其大小为S×S，取语义分割图S₁，其大小为S×S，然后两个矩阵逐像素相乘，得到的结果大小为S×S，然后再通过单应矩阵将相乘的结果映射到对应的位置并融合成一个3D的特征体素V₁，尺寸为S×S×64。

8.根据权利要求7所述的一种基于细节信息保持的多视点视图深度估计方法，其特征在于步骤7具体实现如下：

3D特征体素V₁经过三层3D卷积进行特征提取后，第一层输出尺度为S×S×64的特征体素，第二层输出尺度为S×S×32的特征体素，第三层输出尺度为S×S×16的3D特征体素按照基于方差的度量方法，根据其他视点图像序列与主视点的角度将3D特征体素/>转换为代价体素V_1d，最后对代价体素V_1d进行回归计算得到了尺寸为S×S×1的深度估计图并与分割图S₁逐像素相乘和上采样，得到最终的深度估计图DM₁，图中仅目标区域深度有效。