CN113240604B

CN113240604B - 基于卷积神经网络的飞行时间深度图像的迭代优化方法

Info

Publication number: CN113240604B
Application number: CN202110553035.8A
Authority: CN
Inventors: 李东晓; 郑卓林; 张明; 唐啸天
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-09-16
Anticipated expiration: 2041-05-20
Also published as: CN113240604A

Abstract

本发明公开了一种基于卷积神经网络的飞行时间(Time‑of‑Flight：ToF)深度图像的迭代优化方法。本发明将多频调幅连续波ToF相机成像得到的相关系数图利用基本三角变换以及多频相位去模糊算法，得到场景的初始深度图和反射强度图；然后构建一个基于迭代优化的卷积神经网络，并使用计算机图形学以及三维重建技术构建数据集对该神经网络进行训练为其寻找最优参数；之后将ToF原始相关测量以及初始深度图、反射强度图输入该卷积神经网络，通过多级同构网络的迭代优化，逐步削减多种来源、不同特性的误差影响，实现深度图质量由粗到细的提升。

Description

基于卷积神经网络的飞行时间深度图像的迭代优化方法

技术领域

本发明涉及三维视觉领域，具体涉及基于卷积神经网络的飞行时间(Time-of-Flight)深度图像的迭代优化方法。

背景技术

深度获取不仅是大多数3D视觉任务的关键，同样也在传统基于RGB的视觉任务中扮演着越来越重要的作用，例如语义分割、手势识别。先前流行的结构光和立体视觉或是测距范围太小或是需要场景纹理，ToF技术克服了这些缺陷成为了最有前景的深度获取方式。

ToF相机通过衡量一束波或脉冲从发射器到物体再回到接收器的时间来测距。对于特定的幅度调制连续波ToF相机而言，深度是通过衡量出射波和入射波之间的相位差来间接得到的。现代ToF相机通常会使用多个频率的调制波来增大测距范围，同时保持准确度，对于这种相机，则还需要解同余问题以得到最终深度。

然而ToF相机得到的深度图会受到一些误差的影响。一类是数字成像系统的典型误差，例如高斯成像噪声，温度漂移等。另一类是由于实际情形不符合ToF相机工作原理的假设：每个像素接收到的光应仅包括该点第一次反射的光。当在一个较为复杂的场景，并且有较多镜面反射和低反射率物体时，有些像素会接收到该点二次反射其它点的光，造成多径误差；有些像素接收到的光太少，信噪比太低也会导致误差。

现有的技术大多仅关注多径误差，不能实现所有误差的综合修复。并且没有专门为ToF深度图优化所设计的神经网络结构，大多使用端到端的结构。本发明利用迭代优化而非端到端主要由于三点原因。一是端到端的CNN架构不能从原理上实现多频相关系数图到真实深度图的映射。二是ToF深度图优化需要在毫米精度上运行，完全由CNN输出的结果在像素级毫米精度的预测上可信度准确度较低，容易有失败案例从而出现严重偏离。三是ToF深度图的误差来源不尽相同，从而需要利用不同的原理来去除，端到端的网络很难封装这些原理，并将非线性耦合的误差一次预测准确。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于CNN的迭代优化方法来消除ToF深度图中的误差。

本发明的技术方案通过以下步骤实现：

步骤一：利用基本三角变换以及多频相位去模糊算法对ToF相机成像得到的相关系数图进行处理，得到相机拍摄的初始深度图和反射强度图(分别反映距离与光强信息)；

步骤二：构建迭代CNN模型，迭代CNN模型的输入为ToF相机成像得到的相关系数图及其对应的反射强度图和初始深度图，输出迭代优化后的深度图；

迭代CNN模型包括输入模块、多个依次连接的迭代模块和输出模块；输入模块包括金字塔空洞卷积模块、普通卷积模块；迭代模块由两个分支组成，第一个分支主要由依次连接的一个普通卷积层、一个下卷积层(down convolution)、两个级联的残差模块、一个上卷积层(transposed convolution)和一个普通卷积层组成，第二个分支包括一个普通卷积层、一个上卷积层和一个单核的普通卷积层组成；

步骤三：针对拟优化的目标ToF相机，使用计算机图形学技术以及三维重建技术构建ToF数据集，ToF数据集包括模拟数据集和真实数据集；

步骤四：利用步骤三构造的模拟数据集和真实数据集分别对步骤二的迭代CNN模型使用随机梯度下降法进行训练；

步骤五：采用步骤一的方法获取拟优化的目标ToF相机拍摄的深度图和强度图，将拟优化的目标ToF相机成像得到的相关系数图及其对应的发射强度图和初始深度图输入步骤四训练后的迭代CNN模型中，输出得到迭代优化后的ToF深度图。

所述步骤一具体为：

所述ToF相机的工作模式为双频四采样，ToF相机发射两个不同频率的幅度调制连续波，对每个频率的反射波与发射波之间的相关系数图，使用基本三角变换以及多频相位去模糊算法，得到场景拍摄的初始深度图和发射强度图：

1.1)对两个频率的相关系数图分别进行基本三角变换得到未经相位去模糊的两个点深度；

ToF相机的接收波与发射波的相位差

表示为：

其中，C₀,C₁,C₂,C₃为当前频率的幅度调制连续波在不同相移采样下成像得到的相关系数图；

不考虑相位差

的相位模糊性时，对应频率下测得的点深度Depth表示为：

其中，c为光速，f为调制频率；点深度Depth表示待测点到光心的距离；

两个频率对应的两个点深度分别记为Depth₁和Depth₂；

1.2)根据多频相位去模糊算法得到深度图；

对于两个频率，计算第一个频率和第二个频率的最简比M1:M2，并得到M1和M2的最大公约数gcd和M1在模(mod)M2域中的逆元k(即求最小的k使得k*M1 mod M2＝1)；

1.2.1)计算两个点深度Depth₁和Depth₂相差的归一化整数轮次e：

其中，λ₁和λ₂分别是两个不同频率的幅度调制连续波的波长；

去模糊后的深度图在第二个频率M2上的轮次可通过下式计算得到：

r＝(k*round(e))mod M₂

e在理想情形下应是整数，为了排除测量误差的影响，使用round()函数对e四舍五入。

1.2.2)计算去模糊后的深度图中单个像素点的半径深度Depth_radius：

1.2.3)利用相机内参将去模糊后的深度图中单个像素点的半径深度转换为面深度：

首先计算得到单个像素点在拍摄场景中使用相机坐标系表示的坐标向量

其中，f,c_x,c_y均为相机内参；

是单个像素点在场景中使用相机坐标系表示的坐标向量；i,j表示在去模糊后的深度图中单个像素点的位置坐标；

为相机坐标系下三个坐标轴的方向向量；

根据下述表达式得到去模糊后的深度图的面深度(所述面深度为待测点到相机成像平面的距离)：

其中，m,n分别表示深度图分辨率的高与宽；

去模糊后的深度图的面深度即为场景的初始深度图；

1.3)通过基本三角变换计算两个频率下的强度，每个频率的强度表示为：

强度正比于每个像素接收光的能量。

将两个频率下的强度合并后取均值即为场景的反射强度图。

所述步骤二中：

对于输入模块：将相关系数图、反射强度图、初始深度图输入金字塔空洞卷积模块处理后输入普通卷积模块，普通卷积模块将相关系数图、强度图以及深度图的通道合并后得到特征图；

对于多个依次级联的迭代模块：每个迭代模块中两个分支的输入为输入特征图和输入深度图，输出为输出特征图和输出深度图；

输入特征图和输入深度图分别经第一个分支和第二个分支的普通卷积层后共同输入第一个分支的下卷积层，下卷积层的输出输入第一个残差模块，第一个残差模块的输出与第一个残差模块的输入相加后输入第二个残差模块，第二个残差模块的输出与第二个残差模块的输入相加后分别输入第一个分支和第二个分支的上卷积层，第一个分支的上卷积层的输出输入第二个普通卷积层后与输入迭代模块的特征图相加后作为迭代模块的输出特征图输出；第二个分支的上卷积层的输出输入普通卷积层后与输入迭代模块的深度图相加后作为迭代模块的输出深度图输出；

第一个迭代模块的输入特征图为输入模块输出的特征图，输入深度图为初始深度图，其余迭代模块的输入特征图和输入深度图为前一个迭代模块的输出特征图和输出深度图，最后一个迭代模块输出的输出深度图作为输出模块的输出。

所述步骤二中，每个残差模块由一组1*1卷积核、一组3*3卷积核和一组1*1卷积核依次级联组成。

所述金字塔空洞卷积模块由16个普通卷积核，16个空洞率为6的空洞卷积核，16个空洞率为12的空洞卷积核，16个空洞率为18的空洞卷积核组成。

所述迭代模块中，第二个分支的普通卷积层将输入的单通道深度图处理为16通道的深度图；第一个分支和第二个分支的的上卷积层均包括64个卷积核；第一个分支的第二个普通卷积层包括48个卷积核，第二个分支的第二个普通卷积层为单核。

所述步骤三具体为：

3.1)使用计算机图形学技术生成模拟数据集：

构建或从开源社区获取3D模型表示的场景，然后对场景中物体的材质和反射率进行设置使最终生成的模拟数据集产生ToF相机的典型误差，构建过程中对相机设定不同的位姿，然后瞬态渲染器会得到相应的时间解析的渲染结果，表征了相机在该次拍摄中，每一时间切片接收到的光，尺寸为H*W*T，T为时间切片的总数，使用开源工作瞬态渲染器对场景进行渲染得到渲染结果，对渲染结果进行人为调制得到相关系数图：

其中，R(i)表示瞬态渲染器在第i个时间区间输出的渲染结果；N表示时间解析度，时间解析度(time resolution)表示时间区间的数量；τ表示时间区间的长度；

通过渲染器直接获取模拟数据集的深度真值；

3.2)使用三维重建技术构建真实数据集：

将目标ToF相机和RGBD相机绑定，构成同步采集平台；目标ToF相机采用双频四相工作模式，记录ToF相机在所有位姿下得到的相关系数图；RGBD相机采集场景图像序列，并采用SLAM技术对场景进行三维重建；基于两个相机的标定参数，将三维重建的结果投影到目标ToF相机的相机视点上，获得所有位姿的深度真值。

真实数据集采集的覆盖场景包括：起居室、卧室、书房、卫生间、厨房、餐厅、书店、咖啡吧、图书馆、实验室、照相馆等；并在采集时包含了误差的主要来源，如噪声、多径干扰、吸收性低反射表面、高光镜面反射表面、不同环境光等。

所述步骤四训练时使用的损失函数组成为一阶范数损失以及法线约束损失

所述一阶范数损失以及法线约束损失的表达式分别为：

其中，Depth_gt表示深度真值；Depth_CNNi表示迭代CNN模型中迭代模块以及输出模块输出的深度图；N表示参与计算的像素数量；

其中，α是权重，Normal是相机坐标系下的表面法线真值；m,n分别为深度图分辨率的高和宽；

(i,j)和(i+1,j+1)均表示在深度图中像素点的位置坐标，p_i,j在相机坐标系下的三维坐标使用步骤一中的三维转换函数得到：

通过损失函数找出最小的损失函数值作为模型参数，从而完成迭代CNN模型的训练。

迭代CNN模型在训练过程中，将每个迭代模块输出的深度图添加至损失函数中进行约束。

本发明的有益效果是：

本发明可以有效改善ToF相机深度成像的准确度，消除相机深度测量中存在的各项误差，包括随机误差如成像噪声，固有系统误差如多径干扰以及低信噪比，将相机在不同场景下深度测量的绝对误差及相对误差降至原先的40％以下。从而拓展了ToF相机的应用前景。

附图说明

图1为本发明的基本流程图。

图2为本发明步骤1中将双频四相相关系数图处理为深度图与强度图的流程图。

图3为本发明中所设计的卷积神经网络的主体架构示意图。

图4为本发明的迭代模块结构示意图。

图5为本发明的实验结果图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明的基于卷积神经网络的飞行时间深度图像的迭代优化方法包括以下步骤：

步骤一：如图2所示，将ToF相机成像得到的相关系数图利用基本三角变换以及多频相位去模糊算法，得到初始深度图和反射强度图。

所述ToF相机的工作模式为双频四采样，ToF相机发射两个不同频率的幅度调制连续波，对每个频率的幅度调制连续波进行基本三角变换以及多频相位去模糊算法，得到一个初始深度图和一个反射强度图

所述的基本三角变换的具体过程如下：

1)每个频率的幅度调制连续波得到对应的相关系数图C₀，C₁，C₂，C₃，则相机的接收波与发射波的相位差表示为：

不考虑相位差

的相位模糊性时，单个频率测得的深度表示为

其中c为光速，f为调制频率。Depth表示单个频率下测得的点深度，点深度表示待测点到光心的距离；

两个不同频率下分别得到两个深度Depth1和Depth2。

2)强度正比于每个像素接收光的能量，强度表示为：

从而得到单个频率的强度图。

将两个频率下的强度图合并后取均值即可得到根据ToF相机采集的相关系数图得到的强度图。

所述的多频相位去模糊算法的操作如下：

对于两个频率，每个频率下的四次采样都进行该项运算，可得两个调制频率下未经相位去模糊的两个深度，分别记为Depth1和Depth2。

计算第一个频率和第二个频率的最简比M1:M2，并得到M1和M2的最大公约数GCD和M1在模(mod)M2域中的逆元k(即求最小的k使得k*M1 mod M2＝1)；

1)首先计算两个深度Depth1和Depth2相差的归一化整数轮次e：

λ₁和λ₂分别是两个幅度调制连续波的波长；

2)计算去模糊后的深度在第二个频率上的轮次：

r＝(k*round(e))mod M₂

3)所述去模糊后的深度图的半径深度计算如下：

其中，Depth_radius为半径深度；

4)利用相机内参将去模糊后的深度图中单个像素点的半径深度转换为面深度：

其中，i,j表示在去模糊后的深度图中单个像素点的位置坐标；f,c_x,c_y均为相机内参；

是待测点在实际场景中使用相机坐标系表示的坐标向量；

其中，

为相机坐标系下三个坐标轴的方向向量；

2)根据下述表达式得到去模糊后的深度图的面深度，面深度为待测点到相机成像平面的距离：

其中，m,n分别表示深度图分辨率的高与宽。

去模糊后的深度图的面深度即为根据ToF相机采集的相关系数图得到的深度图。

步骤二：构建如图3所示的迭代CNN模型，利用ToF相机的原始相关系数图及强度图等信息对深度图进行迭代优化。

2.1)在构建的迭代CNN模型中设定一组金字塔空洞卷积和普通卷积以使相关系数图、强度图、深度图能够变换到特征图。(下述的卷积核的空域尺寸无特殊说明均为3*3，并且卷积计算之后默认包含ReLU激活函数以及样例归一化(InstanceNormalization))。

定义一个金字塔空洞卷积模块，由16个普通卷积核，16个空洞率为6的空洞卷积核，16个空洞率为12的空洞卷积核，16个空洞率为18的空洞卷积核组成。设定这一模块处理强度图，从而得到包含丰富且广阔的类人眼的特征感知的特征图。

设计一个普通卷积模块，拥有64个卷积核，将相关系数图、强度图以及深度图的通道合并处理为特征图。

将这一步骤得到的所有特征图在通道维度上合并在一起，得到一个128维度的特征图，再通过一个普通卷积模块调整通道数量为48，得到一个特征图以备后续使用。

2.2)设计如图4所示的迭代模块，迭代模块通过提取多尺度上下文以及设置从底层特征到高层特征的捷径以最大程度利用丰富的空域信息。迭代模块的输入为一个深度图和一个特征图，输出误差预测得到一个精细化的深度图以及一个包含更深层信息的特征图。迭代模块的输入为48通道的特征图和单通道的深度图。

定义一个普通卷积层处理单通道的深度图，得到一个16通道的深度图，该深度图与输入的48通道特征图合并得到64通道的特征图。

设定一个卷积步长为2的下卷积来将该特征图处理为两个空域尺度上为原特征图一半，128通道的特征图。

设定两个级联的残差模块，并使输入输出具有相同的通道数量。残差模块包括一组1*1卷积核将特征图的通道数量缩减到原先的64分之一，再通过一组3*3卷积核在这一通道数量上处理特征图，之后再通过一组1*1的卷积核将特征图恢复到原始数量的通道，最后将该结果与输入的特征图相加得到输出。

特征图经过两个残差模块处理后将分两路进行。一路经过一个64个卷积核的上卷积和48个卷积核的普通卷积层得到一个与输入特征图尺寸完全相同的48通道的特征图，并与最初输入模块的特征图进行逐像素相加；另一路经过不同的一个64核的上卷积以及单核的普通卷积得到通道数为1的误差预测，并与输入的深度图逐像素相加。

2.3)在迭代CNN模型中设定迭代处理模块，将若干个模块(例如5个)级联在一起，每一个模块输出的深度图和特征图都作为下一个模块的输入，并且每一个模块输出的深度图都添加到损失函数中进行约束。

第一个模块输入的深度图为步骤1中所述ToF相机成像得到的深度图，输入特征图为步骤2.1中所述设定的普通卷积与空洞卷积的结果；而最后一个模块输出的深度图会自然地成为最终结果。这样网络的每一个模块的输入都是一个深度图以及包含着三维信息的特征图，每一个模块的任务都是根据此时的深度图以及特征图生成一个质量更高的深度图，并同时输出一个具有更深层次信息的特征图供下一个模块优化，形成了迭代优化的整体架构。

在具体实施中，对于迭代CNN模型，输入为(1)H*W*1的深度图，H、W分别为图像的高与宽。(2)H*W*C的特征图，C为通道数量。模块使用编解码器结构：深度图首先通过一个卷积成为特征图，然后和输入的特征图进行通道维度上的融合，之后通过一个下卷积将该特征图的尺度降至原先的一半同时将通道数增大一倍，即得到尺度为H/2*W/2*2C的特征图。将该结果通过若干个残差块进行处理，这一步得到的特征图将分为两路：一路经过上卷积和普通卷积得到一个与输入尺度相同的H*W*C的特征图，并与最初输入模块的特征图进行逐像素相加，得到更深层的特征图；另一路经过不同参数的上卷积以及普通卷积得到通道数为1的误差预测，并与输入的深度图逐像素相加，得到更精细的深度图。

步骤三、使用计算机图形学技术以及三维重建技术分别构建大型ToF数据集，包含充分误差模拟的相关系数图以及稠密的深度真值，并以此训练步骤二中的迭代CNN模型，从而为其赋予合适的参数。最终获得本发明所述的迭代算法模型。

上述步骤3的具体实施如下。这一步需要生成一个模拟数据集以及一个真实数据集，从而对本发明的主体CNN结构进行训练。

1)模拟数据集的生成：

构建或从开源社区获取3D模型表示的场景，然后对场景中物体的材质和反射率进行设置使最终生成的模拟数据集产生ToF相机的典型误差，过程中对相机设定不同的位姿，然后瞬态渲染器会得到相应的时间解析的渲染结果，表征了相机在该次拍摄中，每一时间切片接收到的光，尺寸为H*W*T，T为时间切片的总数，使用开源工作瞬态渲染器对场景进行渲染得到渲染结果，对渲染结果进行人为调制得到相关系数图：

其中，R表示瞬态渲染器输出的时间解析的渲染结果，R(i)表示第i个时间区间的渲染结果，N表示时间解析度，τ表示时间区间的长度。

模拟数据集的深度真值可直接由渲染器获取。

2)使用三维重建技术构建真实数据集：

将拟优化的目标ToF相机和一款业界高精度RGBD相机绑定，构成同步采集平台。RGBD相机采集场景图像序列，并采用SLAM技术对场景进行高精度的三维重建；目标ToF相机采用双频、四相工作模式，记录ToF相机在所有位姿下得到的相关系数图；基于两个相机的标定参数，将三维重建的结果投影到目标ToF相机的相机视点上，获得所有位姿的深度真值。

该数据集的覆盖场景包括：起居室、卧室、书房、卫生间、厨房、餐厅、书店、咖啡吧、图书馆、实验室、照相馆等。并在采集时包含了误差的主要来源，如噪声、多径干扰、吸收性低反射表面、高光镜面反射表面、不同环境光等。

步骤四：将步骤2构建好的卷积神经网络利用步骤3构造的数据集使用随机梯度下降法进行训练。训练时使用的损失函数的具体组成为一阶范数损失以及法线约束损失。其表达式分别为

其中Depth_gt表示深度真值；Depth_CNNi表示神经网络中各个模块，包括中间模块及输出模块输出的深度图；N代表参与计算的像素数量。

法线损失L_normal中，α是权重，Normal是相机坐标系下的表面法线真值。其中p_i,j在相机坐标系下的三维坐标可以使用步骤1中所述的三维转换函数得到：

这一步骤完成了本发明主体卷积神经网络架构的构建。此训练过程最终会找到上述模型的最优参数，从而完成卷积神经网络的训练。

步骤五：将ToF相机拍摄得到的原始相关系数图以及步骤1中得到的深度图和强度图共同输入上述的步骤2得到的卷积神经网络中，使用步骤4中训练得到的参数作为上述卷积神经网络的参数，取神经网络最后一个模块输出的深度图，即可得到本发明所述的深度图优化方法的优化结果。

图5展示了本发明的实验结果，展示了本发明在不同的、具有典型误差的场景中的表现。在书店场景中，书架与书之间的间隙里的低光强部分造成的误差被很好地修复了；厨房场景中，角落受到了典型的局部多径误差的影响，造成这一区域的深度值较大，这一点也很大程度上被修正了；在餐厅场景中，大理石桌面上的深度受到了严重的镜面反射的影响，因而出现了大范围的错误，本发明同样可以很好地处理这一类型的问题。

综上，本发明的方案将ToF相机的原始测量及根据原始测量处理得到的深度图与幅度图输入一个卷积神经网络中；该神经网络的主体结构由相同结构的模块级联组成，该模块捕获多尺度上下文并进行高层与底层信息的融合与传递，不断地对深度图进行迭代优化；该神经网络利用构造的模拟数据集以及真实数据集训练，并能够表现出良好的优化性能。

Claims

1.一种基于卷积神经网络的飞行时间深度图像的迭代优化方法，其特征在于，包括以下步骤：

步骤一：利用基本三角变换以及多频相位去模糊算法对调幅连续波ToF相机成像得到的相关系数图进行处理，得到场景的初始深度图和反射强度图；

步骤二：构建迭代CNN模型，迭代CNN模型的输入为ToF相机成像得到的相关系数图及其通过步骤一处理后得到的反射强度图和初始深度图，输出迭代优化后的深度图；

迭代CNN模型包括输入模块、多个依次级联的迭代模块和输出模块；输入模块包括金字塔空洞卷积模块、普通卷积模块；迭代模块由两个分支组成，第一个分支主要由依次连接的一个普通卷积层、一个下卷积层、两个级联的残差模块、一个上卷积层和一个普通卷积层组成，第二个分支包括一个普通卷积层、一个上卷积层和一个单核的普通卷积层组成；

步骤四：利用步骤三构造的模拟数据集和真实数据集对步骤二的迭代CNN模型使用随机梯度下降法进行训练；

步骤五：采用步骤一的方法获取拟优化的目标ToF相机拍摄的深度图和强度图，将拟优化的目标ToF相机成像得到的相关系数图及其通过步骤一处理后得到的反射强度图和初始深度图，输入步骤四训练完成后的迭代CNN模型中，输出得到迭代优化后的深度图；

所述步骤二中：

输入特征图和输入深度图分别经第一个分支和第二个分支的普通卷积层后共同输入第一个分支的下卷积层，下卷积层的输出输入第一个残差模块，第一个残差模块的输出与第一个残差模块的输入相加后输入第二个残差模块，第二个残差模块的输出与第二个残差模块的输入相加后分别输入第一个分支和第二个分支的上卷积层，第一个分支的上卷积层的输出输入第一个分支的第二个普通卷积层后与输入迭代模块的特征图相加后作为迭代模块的输出特征图输出；第二个分支的上卷积层的输出输入第二个分支的第二个普通卷积层后与输入迭代模块的深度图相加后作为迭代模块的输出深度图输出；

2.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法，其特征在于，所述步骤一具体为：

ToF相机发射两个不同频率的幅度调制连续波，对每个频率的反射波与发射波之间的相关系数图，使用基本三角变换以及多频相位去模糊算法，得到场景的初始深度图和反射强度图：

ToF相机的接收波与发射波的相位差