CN115147709A

CN115147709A - 一种基于深度学习的水下目标三维重建方法

Info

Publication number: CN115147709A
Application number: CN202210799673.2A
Authority: CN
Inventors: 沈钧戈; 危欢; 毛昭勇; 孙健; 王亦晨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-04
Anticipated expiration: 2042-07-06
Also published as: CN115147709B

Abstract

本发明提供了一种基于深度学习的水下目标三维重建方法，采用注意力机制获得水下图片重点聚焦的特征，对图片进行单应性变换，生成匹配特征体，计算该图片的特征体与其他图片特征体的匹配代价，得到一个四维的匹配代价体，使用基于多尺度的三维卷积神经网络进行匹配代价体正则化，对代价体进行过滤，得到深度值概率体，通过神经网络得出深度图，将深度值映射到三维空间，得到三维点云图。本发明充分使用卷积神经网络的特征提取能力，进一步提升模型的表征能力，极大改善立体匹配效果，动态平衡各个通道的权重大小，能够精准的对特征的各个通道进行全局信息调整，有利于优化特征局部信息。

Description

一种基于深度学习的水下目标三维重建方法

技术领域

本发明涉及深度学习、数字图像处理以及计算机视觉的交叉领域，尤其是一种基于深度学习，通道注意力机制的多尺度特征提取方法，以及三维视觉的多视角立体匹配方法。

背景技术

尽管对于目标三维重建已经有了大量的研究，特别是在特征提取方面，手工提取的方法已经有了很大进展，但是手工特征获取的大多是底层简单的物理特征，特征表征能力较差，且对于水下场景的目标三维图像，其图像背景复杂纹理不够清晰，光线照明度不够，存在遮挡，所以需要考虑多重信息来准确辨别各类场景，更好的利用语义信息。基于水下场景光线弱、特征少的特点，传统方法无法对该场景很好的应用，此外，目前的神经网络结构模型繁多，针对不同的场景，每个神经网络结构模型的效果差异较大。

发明内容

为了克服现有技术的不足，本发明提供一种基于深度学习的水下目标三维重建方法，引入通道注意力机制，采用多尺度特征的提取和融合，以提升模型的特征提取能力，完成更加精准特征提取。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，采用注意力机制获得水下图片重点聚焦的特征；

步骤2，从步骤1获得的图片任意选出一张图片作为推理图片；引入先验信息，包括相机内参以及每张图片对应的内参和外参，进行单应性变换，生成匹配特征体，计算该图片的特征体与其他图片特征体的匹配代价，得到一个四维的匹配代价体；

步骤3，使用基于多尺度的三维卷积神经网络进行匹配代价体正则化，利用U-Net网络，对匹配代价体进行降采样，并提取不同尺度中的上下文信息和临近像素信息，对代价体进行过滤，得到深度值概率体；

步骤4，将深度值概率体直接与预设的连续深度值(1、2、3…192)相乘再求和，得到一个初步的深度图；最大深度值设置为192，由推理图片生成另一张深度图，将两张深度图分别与真实的深度图进行比对，两部分损失之和作为损失值；

步骤5，通过调节步骤1和步骤3的深度卷积神经网络的超参数，所述的超参数包括学习率、批次大小、卷积核尺寸和激活函数，超参数属于神经网络的通用参数，调节的方式是采用控制变量法依次逐个缓慢增加或减少以得到最优的结果；

步骤6，将待分类的水下图像数据经过步骤1至步骤4之后，通过神经网络得出深度图，将深度值映射到三维空间，得到三维点云图。

所述步骤1中，采用一个通道注意力模块加强特征的提取，输入的图片依次经过CNN、注意力机制及CNN得到特征提取，得到一个和水下图片大小一样但是特征更加明显的图片；

所述CNN包括一系列卷积、批归一化层和线性整流激活函数，即：Conv-BN-Relu，卷积核的尺寸为3×3，卷积核个数为128，经过两次卷积操作，匹配三个层次的特征尺寸，降维到统一到尺寸；

表1 CNN模型的网络各层特征信息

在水下图片特征提取各层次特征信息如表1所示。

所述步骤2中构建匹配代价体的步骤为：

通过深度特征抽取后，每张图片得到一张对应的特征图，根据先验的深度范围信息，以主光轴为扫描方向，将参考影像按照某一深度间隔，从最小深度一直映射到最大深度处，得到一个处于不同深度间隔的相机锥体，利用插值的方法，使得每张投影的长宽一样；

已知推理水下图片I_ref，候选集中影像的相机参数为：{K_i,R_i,t_i}，其中，K_i代表相机内参，R_i和t_i代表外参中的旋转角和平移，对于候选集中的非推理图片的特征图投影到该相机椎体的不同深度中，定义投影变换为：V_i＝H_j(θ)x_j，θ表示深度值，x_j为候选集中第j个图片经过结合注意力的CNN得到的特征，V_i表示第j个图片经过结合注意力的CNN得到的特征经过单应性变换的结果；H_j表示对于第j个特征图映射到深度θ的参考影像上的单应性矩阵，单应性矩阵的计算公式为：

其中，K_j代表第j个特征的内参，R_j表示第j个特征的外参旋转角，I代表图片，t_ref代表推理图片外参的平移矩阵，t_j代表第j张图片外参的平移矩阵，

代表推理图片法向量的转置，θ表示深度值，

表示推理图片的外参旋转矩阵的转置，

表示推理图片的内参矩阵的转置；

单应性矩阵是完全可以微分的，通过投影变换，N张图片形成N个特征体V_i(i∈N)，特征体V_i就是匹配代价体的表示；

采用一种基于方差的多视图一致性度量准则，保证每一个特征体V_i都加入方差计算中，表示一致性度量，利用下式构造三维代价体：

其中C代表三维代价体，N代表匹配代价数量，V_i代表第i个代价体，

代表匹配代价的平均值。

所述步骤3中，优化匹配代价体的步骤为：

采用基于多尺度的三维卷积神经网络进行代价体正则化，利用U-Net网络，对代价体进行降采样，并提取不同尺度中的上下文信息和临近像素信息，对代价体进行过滤；首先进行下采样，构建输入图像的高斯金字塔，获得3个尺度的特征；然后，在进行特征融合用于联合精细信息和粗略信息；

输入为初始匹配代价体C，各层次特征信息如表2所示：

表2优化匹配代价体中CNN模型的网络各层特征信息

初始的匹配代价体为最大尺度x₁，经过Layer1后获得中尺度特征x₂，再经过layer2后获得低尺度特征x₃，之后对多尺度特征进行融合，将x₃经过layer3上采样的结果与x₂相加，得到融合上采样后的x₄，再将x₄经过layer4上采样的结果与x₁相加，得到多尺度融合的输出结果，即优化后的匹配代价C′。

所述步骤4中生成深度图的步骤为：

深度值是通过神经网络直接学习的，网络训练方法是，输入匹配代价C′和其对应深度图真值，利用softmax给每一个像素在每一个深度处的概率，得到深度方向置信度概率体P，以此完成从代价到深度值的学习过程；

当已知概率体P时，直接获取推理图片的所有像素在不同深度的概率体，直接估计深度图，以深度图期望值作为该像素的深度估计值，使得整个深度图中的不同部分较为平滑，将概率体P代入如下公式，得到深度图1：

其中，P(θ)表示特征在每个深度θ时对应的概率值；

将推理图片和概率体P相加，经过CNN后，再与概率体P相加得到一个新特征P2，将P2代入下面公式，得到深度图2：

模型损失值为两部分损失值之和，即loss1和loss2之和，Loss1由深度图1和GroundTruth得到，loss2由深度图2和GroundTruth得到，Loss表达式如下所示：

其中Loss代表模型的整体Loss值，P_valid是指只包括GroundTruth图片中有效的像素点，θ(p)表示Ground Truth在点p位置的深度值，

表示在多尺度模型得到的深度图在点p位置的深度值，

表示reference分支得到的深度图在点p位置的深度值，λ表示一个常数超参数。

所述步骤5中，超参数包括学习率、批次大小、卷积核尺寸和激活函数，对于学习率，训练多个批次后查看损失值结果，选择最低损失值对应的学习率；对于批次大小，训练多个批次后查看损失值结果，选择最低损失值对应的批次大小；对于卷积核尺寸和激活函数的选取，训练完毕后在测试数据集上测试，卷积核尺寸采用3x3或5x5或7x7,激活函数采用sigmoid或relu或elu，选定参数训练好网络后，以测试集结果为标准，测试结果好对应的参数可以选为调节好的参数。

所述步骤6中，将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中，将深度图映射为三维点云图；

其中x,y,z是三维点云坐标系中的坐标，x',y'是图像的像素坐标，θ为得到的深度图中坐标x',y'上的深度值，f_x代表图像在x方向单位长度的像素值,c_x代表像素坐标系中与光心原点水平方向的偏移像素值，f_y在代表图像在方向单位长度的像素值,c_y代表像素坐标系中与光心原点垂直方向的偏移像素值；利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标，然后将推理图片原图的像素点按照坐标投射到三维空间中。

本发明的有益效果在于利用注意力机制关注重要特征，利用多尺度来进行特征融合；充分使用卷积神经网络的特征提取能力，进一步提升模型的表征能力，极大改善立体匹配效果。本发明提出的注意力机制能够有效的调整特征通道的权重，会动态平衡各个通道的权重大小，能够精准的对特征的各个通道进行全局信息调整。此外，本发明采用了多尺度信息完成对遮挡部分的处理，有利于优化特征局部信息。本发明提出的通道注意力和多尺度特征融合技术的网络模型专注于水下三维重建，对该场景取得了优秀的结果。本发明在AR娱乐、文物保护、地理空间物体检测、地貌测绘、植被测绘和环境监测等方面应用意义深远。

附图说明

图1是本发明水下目标三维重建整体过程示意图。

图2是本发明残差单元结构示意图。

图3是本发明通道注意力模块结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出一种端到端的多视角深度学习立体匹配网络用于重建深度图，是一个先生成粗糙深度图，再逐步优化深度图的过程。

本发明实施例提供一种基于注意力机制多尺度模型特征提取器，用于提高目标感知能力。

本发明实施例提供一种基于深度学习的立体匹配方法，首先构建匹配代价体，之后采用卷积网络3d UNet优化深度图，这是一个coarse to fine的过程。

本发明的主要步骤如下：

步骤1：注意力模块以及图像特征提取器

水下图片由于光线不足，要更好的利用语义信息，采用注意力机制获得重点聚焦的特征，能够更好的应用好特征信息。针对常规模型特征提取能力的不足，本发明提出结合通道注意力模块，获得更好的水下特征信息；

步骤2：构建匹配代价体

从将预处理的图片中选出一张图片作为reference图片。引入先验信息，包括相机内参以及每张图片对应的内参和外参，进行单应性变换，生成匹配特征体，需要计算这张图片的特征体与其他图片特征体的匹配代价，得到一个四维的匹配代价体。

步骤3：优化匹配代价体

由于特征点可能错误提取，提取后的特征点也可能出现误匹配，为了消除这些错误，引入一个卷积网络3D-UNet来完成这部分工作。这个过程采用了多尺度的特征融合，以处理尺度不同的图片。优化后的结果为深度值概率体。

步骤4：生成深度图

将概率体直接与预设最大的深度值(深度学习中通常设置为192)相乘，得到一个初步的深度图。同时，可以由reference图片生成另一张精细的深度图，将这两张深度图与真实的深度图进行比对，两部分损失之和作为损失值。

步骤5：训练网络参数

通过调节深度卷积神经网络的超参数，以提高网络的学习性能和效果，超参数有学习率、批次大小、卷积核尺寸以及激活函数；

步骤6：实现水下深度图的生成以及点云的生成

将待分类的水下图像数据经过步骤1至步骤4之后，通过优化好的神经网络得出深度图，对深度值映射到三维空间，得到三维点云图。

本发明实施例的整体流程如图1所示，为了更好的处理水下图片光线不足、纹理不清晰的问题，本发明采用通道注意力模块，利用CNN进行提取特征。并采用单应变换将所有图片转换成推理图片的视角，之后计算匹配代价体。本发明采用特征金字塔来处理匹配代价体，一方面能够解决物体大小尺度问题，另一个方面可以很好的完成去除不正确的匹配对，使模型得到的结果更加的准确。本发明最后通过一个残差模块来对优化深度图的生成。

步骤1：注意力机制模块以及图像特征提取器

针对水下图片出现光线弱，纹理不清晰，采用一个通道注意力模块加强特征的提取。输入的图片依次经过CNN、注意力机制及CNN得到特征提取，得到一个和水下图片大小一样但是特征更加明显的图片，经过这个处理后，水下图片可以增加匹配点，加强模型的准确性。

如表1所示，CNN分支包括一系列卷积、批归一化层和线性整流激活函数，即：Conv-BN-Relu，卷积核的尺寸为3×3，卷积核个数为128，经过两次卷积操作，匹配三个层次的特征尺寸，降维到统一到尺寸。

在水下图片特征提取各层次特征信息如表1所示：

表1 CNN模型的网络各层特征信息

步骤2：构建匹配代价体；

利用平面扫描算法构造影像匹配代价，因为平面扫描算法适用于无纠正影像的匹配代价，且能达到实时视差图的效果。通过深度特征抽取后，每张图片得到一张对应的特征图，根据先验的深度范围信息，对于参考影响，以其主光轴为扫描方向，将参考影像按照某一深度间隔，从最小深度一直映射到最大深度处。可以得到一个处于不同深度间隔的相机锥体，为了方便计算光学一致性，利用插值的方法，使得每张投影的长宽一样。

代表推理图片法向量的转置，θ表示深度值，

表示推理图片的外参旋转矩阵的转置，

表示推理图片的内参矩阵的转置；

考虑到对亚像素的深度估计，以保证深度图平滑，该单应性矩阵是完全可以微分的，通过投影变换，N张图片形成N个特征体V_i(i∈N)，特征体V_i就是匹配代价体的表示。

为了不失随机性，本发明采用一种基于方差的多视图一致性度量准则，保证每一个特征体V_i都加入方差计算中，表示一致性度量，利用下式构造三维代价体：

其中C代表三维代价体，N代表匹配代价数量，V_i代表第i个代价体，V代表匹配代价的平均值；

步骤3：优化匹配代价体

原始代价体往往是含有噪声污染的，因此，为防止噪声使得网络过度拟合，使用基于多尺度的三维卷积神经网络进行代价体正则化，利用U-Net网络，对代价体进行降采样，并提取不同尺度中的上下文信息和临近像素信息，对代价体进行过滤。为了能最大程度上利用图像的精细信息和粗略信息，并降低弱纹理区域的误匹配率，首先进行下采样，构建输入图像的高斯金字塔，获得3个尺度的特征；然后，在进行特征融合用于联合精细信息和粗略信息；

本部分的输入为初始匹配代价体C，各层次特征信息如表2所示：

表2优化匹配代价体中CNN模型的网络各层特征信息

初始的匹配代价体为最大尺度x₁，经过Layer1后获得中尺度特征x₂，再经过layer2后获得低尺度特征x₃，之后对多尺度特征进行融合，将x₃经过layer3上采样的结果与x₂相加，得到融合上采样后的x₄，再将x₄经过layer4上采样的结果与x₁相加，得到多尺度融合的输出结果，即优化后的匹配代价C′；

步骤4：生成深度图；

深度值是通过神经网络直接学习的，网络训练方法是，输入匹配代价C′和其对应深度图真值，利用softmax给每一个像素在每一个深度处的概率，得到深度方向置信度概率体P，以此完成从代价到深度值的学习过程。

当已知概率体P时，最简单的方法可以直接获取推理图片的所有像素在不同深度的概率体，直接估计深度图，以深度图期望值作为该像素的深度估计值，使得整个深度图中的不同部分较为平滑，将概率体P代入如下公式，得到深度图1：

其中，P(θ)表示特征在每个深度θ时对应的概率值；

表示在多尺度模型得到的深度图在点p位置的深度值，

表示reference分支得到的深度图在点p位置的深度值，λ表示一个常数超参数，可以人工进行设置大小；

步骤5：训练网络参数；

通过调节深度卷积神经网络的超参数，以提高网络的学习性能和效果。超参数有学习率、权重衰减系数、批次大小、卷积核尺寸以及激活函数，超参数以及取值如表3所示；达到最大训练次数，即可得到训练好的深度卷积神经网络；

表3卷积神经网络超参数设置

步骤6：实现水下深度图的生成以及点云的生成；

将待重建的水下图像数据输入至步骤5训练好的深度卷积神经网络中，将深度图映射为三维点云图；

其中x,y,z是三维点云坐标系中的坐标，x',y'是图像的像素坐标，θ为得到的深度图中坐标x',y'上的深度值，f_x代表图像在x方向单位长度(m)代表的像素值,c_x代表像素坐标系中与光心原点水平方向的偏移像素值，fy在代表图像在方向单位长度(m)代表的像素值,c_y代表像素坐标系中与光心原点垂直方向的偏移像素值；利用这些参数根据推理图片的深度图计算出推理图片每个像素点的三维坐标，然后将推理图片原图的像素点按照坐标投射到三维空间中；

采用python中open3d工具库生成点云图，该工具库原理和上面映射规则一样，更方便生成标准的点云图文件，open3d库的输入为：深度图，上述参数，推理图片，输出为有颜色的三维点云图文件，可以进行可视化。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。