CN113240604B - 基于卷积神经网络的飞行时间深度图像的迭代优化方法 - Google Patents

基于卷积神经网络的飞行时间深度图像的迭代优化方法 Download PDF

Info

Publication number
CN113240604B
CN113240604B CN202110553035.8A CN202110553035A CN113240604B CN 113240604 B CN113240604 B CN 113240604B CN 202110553035 A CN202110553035 A CN 202110553035A CN 113240604 B CN113240604 B CN 113240604B
Authority
CN
China
Prior art keywords
depth
map
module
input
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110553035.8A
Other languages
English (en)
Other versions
CN113240604A (zh
Inventor
李东晓
郑卓林
张明
唐啸天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110553035.8A priority Critical patent/CN113240604B/zh
Publication of CN113240604A publication Critical patent/CN113240604A/zh
Application granted granted Critical
Publication of CN113240604B publication Critical patent/CN113240604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的飞行时间(Time‑of‑Flight:ToF)深度图像的迭代优化方法。本发明将多频调幅连续波ToF相机成像得到的相关系数图利用基本三角变换以及多频相位去模糊算法,得到场景的初始深度图和反射强度图;然后构建一个基于迭代优化的卷积神经网络,并使用计算机图形学以及三维重建技术构建数据集对该神经网络进行训练为其寻找最优参数;之后将ToF原始相关测量以及初始深度图、反射强度图输入该卷积神经网络,通过多级同构网络的迭代优化,逐步削减多种来源、不同特性的误差影响,实现深度图质量由粗到细的提升。

Description

基于卷积神经网络的飞行时间深度图像的迭代优化方法
技术领域
本发明涉及三维视觉领域,具体涉及基于卷积神经网络的飞行时间(Time-of-Flight)深度图像的迭代优化方法。
背景技术
深度获取不仅是大多数3D视觉任务的关键,同样也在传统基于RGB的视觉任务中扮演着越来越重要的作用,例如语义分割、手势识别。先前流行的结构光和立体视觉或是测距范围太小或是需要场景纹理,ToF技术克服了这些缺陷成为了最有前景的深度获取方式。
ToF相机通过衡量一束波或脉冲从发射器到物体再回到接收器的时间来测距。对于特定的幅度调制连续波ToF相机而言,深度是通过衡量出射波和入射波之间的相位差来间接得到的。现代ToF相机通常会使用多个频率的调制波来增大测距范围,同时保持准确度,对于这种相机,则还需要解同余问题以得到最终深度。
然而ToF相机得到的深度图会受到一些误差的影响。一类是数字成像系统的典型误差,例如高斯成像噪声,温度漂移等。另一类是由于实际情形不符合ToF相机工作原理的假设:每个像素接收到的光应仅包括该点第一次反射的光。当在一个较为复杂的场景,并且有较多镜面反射和低反射率物体时,有些像素会接收到该点二次反射其它点的光,造成多径误差;有些像素接收到的光太少,信噪比太低也会导致误差。
现有的技术大多仅关注多径误差,不能实现所有误差的综合修复。并且没有专门为ToF深度图优化所设计的神经网络结构,大多使用端到端的结构。本发明利用迭代优化而非端到端主要由于三点原因。一是端到端的CNN架构不能从原理上实现多频相关系数图到真实深度图的映射。二是ToF深度图优化需要在毫米精度上运行,完全由CNN输出的结果在像素级毫米精度的预测上可信度准确度较低,容易有失败案例从而出现严重偏离。三是ToF深度图的误差来源不尽相同,从而需要利用不同的原理来去除,端到端的网络很难封装这些原理,并将非线性耦合的误差一次预测准确。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于CNN的迭代优化方法来消除ToF深度图中的误差。
本发明的技术方案通过以下步骤实现:
步骤一:利用基本三角变换以及多频相位去模糊算法对ToF相机成像得到的相关系数图进行处理,得到相机拍摄的初始深度图和反射强度图(分别反映距离与光强信息);
步骤二:构建迭代CNN模型,迭代CNN模型的输入为ToF相机成像得到的相关系数图及其对应的反射强度图和初始深度图,输出迭代优化后的深度图;
迭代CNN模型包括输入模块、多个依次连接的迭代模块和输出模块;输入模块包括金字塔空洞卷积模块、普通卷积模块;迭代模块由两个分支组成,第一个分支主要由依次连接的一个普通卷积层、一个下卷积层(down convolution)、两个级联的残差模块、一个上卷积层(transposed convolution)和一个普通卷积层组成,第二个分支包括一个普通卷积层、一个上卷积层和一个单核的普通卷积层组成;
步骤三:针对拟优化的目标ToF相机,使用计算机图形学技术以及三维重建技术构建ToF数据集,ToF数据集包括模拟数据集和真实数据集;
步骤四:利用步骤三构造的模拟数据集和真实数据集分别对步骤二的迭代CNN模型使用随机梯度下降法进行训练;
步骤五:采用步骤一的方法获取拟优化的目标ToF相机拍摄的深度图和强度图,将拟优化的目标ToF相机成像得到的相关系数图及其对应的发射强度图和初始深度图输入步骤四训练后的迭代CNN模型中,输出得到迭代优化后的ToF深度图。
所述步骤一具体为:
所述ToF相机的工作模式为双频四采样,ToF相机发射两个不同频率的幅度调制连续波,对每个频率的反射波与发射波之间的相关系数图,使用基本三角变换以及多频相位去模糊算法,得到场景拍摄的初始深度图和发射强度图:
1.1)对两个频率的相关系数图分别进行基本三角变换得到未经相位去模糊的两个点深度;
ToF相机的接收波与发射波的相位差
Figure BDA0003075983340000021
表示为:
Figure BDA0003075983340000022
其中,C0,C1,C2,C3为当前频率的幅度调制连续波在不同相移采样下成像得到的相关系数图;
不考虑相位差
Figure BDA0003075983340000023
的相位模糊性时,对应频率下测得的点深度Depth表示为:
Figure BDA0003075983340000031
其中,c为光速,f为调制频率;点深度Depth表示待测点到光心的距离;
两个频率对应的两个点深度分别记为Depth1和Depth2
1.2)根据多频相位去模糊算法得到深度图;
对于两个频率,计算第一个频率和第二个频率的最简比M1:M2,并得到M1和M2的最大公约数gcd和M1在模(mod)M2域中的逆元k(即求最小的k使得k*M1 mod M2=1);
1.2.1)计算两个点深度Depth1和Depth2相差的归一化整数轮次e:
Figure BDA0003075983340000032
其中,λ1和λ2分别是两个不同频率的幅度调制连续波的波长;
去模糊后的深度图在第二个频率M2上的轮次可通过下式计算得到:
r=(k*round(e))mod M2
e在理想情形下应是整数,为了排除测量误差的影响,使用round()函数对e四舍五入。
1.2.2)计算去模糊后的深度图中单个像素点的半径深度Depthradius
Figure BDA0003075983340000033
1.2.3)利用相机内参将去模糊后的深度图中单个像素点的半径深度转换为面深度:
首先计算得到单个像素点在拍摄场景中使用相机坐标系表示的坐标向量
Figure BDA0003075983340000034
Figure BDA0003075983340000035
其中,f,cx,cy均为相机内参;
Figure BDA0003075983340000036
是单个像素点在场景中使用相机坐标系表示的坐标向量;i,j表示在去模糊后的深度图中单个像素点的位置坐标;
Figure BDA0003075983340000037
为相机坐标系下三个坐标轴的方向向量;
根据下述表达式得到去模糊后的深度图的面深度(所述面深度为待测点到相机成像平面的距离):
Figure BDA0003075983340000038
其中,m,n分别表示深度图分辨率的高与宽;
去模糊后的深度图的面深度即为场景的初始深度图;
1.3)通过基本三角变换计算两个频率下的强度,每个频率的强度表示为:
Figure BDA0003075983340000039
强度正比于每个像素接收光的能量。
将两个频率下的强度合并后取均值即为场景的反射强度图。
所述步骤二中:
对于输入模块:将相关系数图、反射强度图、初始深度图输入金字塔空洞卷积模块处理后输入普通卷积模块,普通卷积模块将相关系数图、强度图以及深度图的通道合并后得到特征图;
对于多个依次级联的迭代模块:每个迭代模块中两个分支的输入为输入特征图和输入深度图,输出为输出特征图和输出深度图;
输入特征图和输入深度图分别经第一个分支和第二个分支的普通卷积层后共同输入第一个分支的下卷积层,下卷积层的输出输入第一个残差模块,第一个残差模块的输出与第一个残差模块的输入相加后输入第二个残差模块,第二个残差模块的输出与第二个残差模块的输入相加后分别输入第一个分支和第二个分支的上卷积层,第一个分支的上卷积层的输出输入第二个普通卷积层后与输入迭代模块的特征图相加后作为迭代模块的输出特征图输出;第二个分支的上卷积层的输出输入普通卷积层后与输入迭代模块的深度图相加后作为迭代模块的输出深度图输出;
第一个迭代模块的输入特征图为输入模块输出的特征图,输入深度图为初始深度图,其余迭代模块的输入特征图和输入深度图为前一个迭代模块的输出特征图和输出深度图,最后一个迭代模块输出的输出深度图作为输出模块的输出。
所述步骤二中,每个残差模块由一组1*1卷积核、一组3*3卷积核和一组1*1卷积核依次级联组成。
所述金字塔空洞卷积模块由16个普通卷积核,16个空洞率为6的空洞卷积核,16个空洞率为12的空洞卷积核,16个空洞率为18的空洞卷积核组成。
所述迭代模块中,第二个分支的普通卷积层将输入的单通道深度图处理为16通道的深度图;第一个分支和第二个分支的的上卷积层均包括64个卷积核;第一个分支的第二个普通卷积层包括48个卷积核,第二个分支的第二个普通卷积层为单核。
所述步骤三具体为:
3.1)使用计算机图形学技术生成模拟数据集:
构建或从开源社区获取3D模型表示的场景,然后对场景中物体的材质和反射率进行设置使最终生成的模拟数据集产生ToF相机的典型误差,构建过程中对相机设定不同的位姿,然后瞬态渲染器会得到相应的时间解析的渲染结果,表征了相机在该次拍摄中,每一时间切片接收到的光,尺寸为H*W*T,T为时间切片的总数,使用开源工作瞬态渲染器对场景进行渲染得到渲染结果,对渲染结果进行人为调制得到相关系数图:
Figure BDA0003075983340000051
Figure BDA0003075983340000052
Figure BDA0003075983340000053
Figure BDA0003075983340000054
其中,R(i)表示瞬态渲染器在第i个时间区间输出的渲染结果;N表示时间解析度,时间解析度(time resolution)表示时间区间的数量;τ表示时间区间的长度;
通过渲染器直接获取模拟数据集的深度真值;
3.2)使用三维重建技术构建真实数据集:
将目标ToF相机和RGBD相机绑定,构成同步采集平台;目标ToF相机采用双频四相工作模式,记录ToF相机在所有位姿下得到的相关系数图;RGBD相机采集场景图像序列,并采用SLAM技术对场景进行三维重建;基于两个相机的标定参数,将三维重建的结果投影到目标ToF相机的相机视点上,获得所有位姿的深度真值。
真实数据集采集的覆盖场景包括:起居室、卧室、书房、卫生间、厨房、餐厅、书店、咖啡吧、图书馆、实验室、照相馆等;并在采集时包含了误差的主要来源,如噪声、多径干扰、吸收性低反射表面、高光镜面反射表面、不同环境光等。
所述步骤四训练时使用的损失函数组成为一阶范数损失以及法线约束损失
所述一阶范数损失以及法线约束损失的表达式分别为:
Figure BDA0003075983340000055
Figure BDA0003075983340000056
其中,Depthgt表示深度真值;DepthCNNi表示迭代CNN模型中迭代模块以及输出模块输出的深度图;N表示参与计算的像素数量;
其中,α是权重,Normal是相机坐标系下的表面法线真值;m,n分别为深度图分辨率的高和宽;
(i,j)和(i+1,j+1)均表示在深度图中像素点的位置坐标,pi,j在相机坐标系下的三维坐标使用步骤一中的三维转换函数得到:
Figure BDA0003075983340000061
通过损失函数找出最小的损失函数值作为模型参数,从而完成迭代CNN模型的训练。
迭代CNN模型在训练过程中,将每个迭代模块输出的深度图添加至损失函数中进行约束。
本发明的有益效果是:
本发明可以有效改善ToF相机深度成像的准确度,消除相机深度测量中存在的各项误差,包括随机误差如成像噪声,固有系统误差如多径干扰以及低信噪比,将相机在不同场景下深度测量的绝对误差及相对误差降至原先的40%以下。从而拓展了ToF相机的应用前景。
附图说明
图1为本发明的基本流程图。
图2为本发明步骤1中将双频四相相关系数图处理为深度图与强度图的流程图。
图3为本发明中所设计的卷积神经网络的主体架构示意图。
图4为本发明的迭代模块结构示意图。
图5为本发明的实验结果图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,本发明的基于卷积神经网络的飞行时间深度图像的迭代优化方法包括以下步骤:
步骤一:如图2所示,将ToF相机成像得到的相关系数图利用基本三角变换以及多频相位去模糊算法,得到初始深度图和反射强度图。
所述ToF相机的工作模式为双频四采样,ToF相机发射两个不同频率的幅度调制连续波,对每个频率的幅度调制连续波进行基本三角变换以及多频相位去模糊算法,得到一个初始深度图和一个反射强度图
所述的基本三角变换的具体过程如下:
1)每个频率的幅度调制连续波得到对应的相关系数图C0,C1,C2,C3,则相机的接收波与发射波的相位差表示为:
Figure BDA0003075983340000071
不考虑相位差
Figure BDA0003075983340000072
的相位模糊性时,单个频率测得的深度表示为
Figure BDA0003075983340000073
其中c为光速,f为调制频率。Depth表示单个频率下测得的点深度,点深度表示待测点到光心的距离;
两个不同频率下分别得到两个深度Depth1和Depth2。
2)强度正比于每个像素接收光的能量,强度表示为:
Figure BDA0003075983340000074
从而得到单个频率的强度图。
将两个频率下的强度图合并后取均值即可得到根据ToF相机采集的相关系数图得到的强度图。
所述的多频相位去模糊算法的操作如下:
对于两个频率,每个频率下的四次采样都进行该项运算,可得两个调制频率下未经相位去模糊的两个深度,分别记为Depth1和Depth2。
计算第一个频率和第二个频率的最简比M1:M2,并得到M1和M2的最大公约数GCD和M1在模(mod)M2域中的逆元k(即求最小的k使得k*M1 mod M2=1);
1)首先计算两个深度Depth1和Depth2相差的归一化整数轮次e:
Figure BDA0003075983340000075
λ1和λ2分别是两个幅度调制连续波的波长;
2)计算去模糊后的深度在第二个频率上的轮次:
r=(k*round(e))mod M2
e在理想情形下应是整数,为了排除测量误差的影响,使用round()函数对e四舍五入。
3)所述去模糊后的深度图的半径深度计算如下:
Figure BDA0003075983340000076
其中,Depthradius为半径深度;
4)利用相机内参将去模糊后的深度图中单个像素点的半径深度转换为面深度:
Figure BDA0003075983340000081
其中,i,j表示在去模糊后的深度图中单个像素点的位置坐标;f,cx,cy均为相机内参;
Figure BDA0003075983340000082
是待测点在实际场景中使用相机坐标系表示的坐标向量;
其中,
Figure BDA0003075983340000083
为相机坐标系下三个坐标轴的方向向量;
2)根据下述表达式得到去模糊后的深度图的面深度,面深度为待测点到相机成像平面的距离:
Figure BDA0003075983340000084
其中,m,n分别表示深度图分辨率的高与宽。
去模糊后的深度图的面深度即为根据ToF相机采集的相关系数图得到的深度图。
步骤二:构建如图3所示的迭代CNN模型,利用ToF相机的原始相关系数图及强度图等信息对深度图进行迭代优化。
2.1)在构建的迭代CNN模型中设定一组金字塔空洞卷积和普通卷积以使相关系数图、强度图、深度图能够变换到特征图。(下述的卷积核的空域尺寸无特殊说明均为3*3,并且卷积计算之后默认包含ReLU激活函数以及样例归一化(InstanceNormalization))。
定义一个金字塔空洞卷积模块,由16个普通卷积核,16个空洞率为6的空洞卷积核,16个空洞率为12的空洞卷积核,16个空洞率为18的空洞卷积核组成。设定这一模块处理强度图,从而得到包含丰富且广阔的类人眼的特征感知的特征图。
设计一个普通卷积模块,拥有64个卷积核,将相关系数图、强度图以及深度图的通道合并处理为特征图。
将这一步骤得到的所有特征图在通道维度上合并在一起,得到一个128维度的特征图,再通过一个普通卷积模块调整通道数量为48,得到一个特征图以备后续使用。
2.2)设计如图4所示的迭代模块,迭代模块通过提取多尺度上下文以及设置从底层特征到高层特征的捷径以最大程度利用丰富的空域信息。迭代模块的输入为一个深度图和一个特征图,输出误差预测得到一个精细化的深度图以及一个包含更深层信息的特征图。迭代模块的输入为48通道的特征图和单通道的深度图。
定义一个普通卷积层处理单通道的深度图,得到一个16通道的深度图,该深度图与输入的48通道特征图合并得到64通道的特征图。
设定一个卷积步长为2的下卷积来将该特征图处理为两个空域尺度上为原特征图一半,128通道的特征图。
设定两个级联的残差模块,并使输入输出具有相同的通道数量。残差模块包括一组1*1卷积核将特征图的通道数量缩减到原先的64分之一,再通过一组3*3卷积核在这一通道数量上处理特征图,之后再通过一组1*1的卷积核将特征图恢复到原始数量的通道,最后将该结果与输入的特征图相加得到输出。
特征图经过两个残差模块处理后将分两路进行。一路经过一个64个卷积核的上卷积和48个卷积核的普通卷积层得到一个与输入特征图尺寸完全相同的48通道的特征图,并与最初输入模块的特征图进行逐像素相加;另一路经过不同的一个64核的上卷积以及单核的普通卷积得到通道数为1的误差预测,并与输入的深度图逐像素相加。
2.3)在迭代CNN模型中设定迭代处理模块,将若干个模块(例如5个)级联在一起,每一个模块输出的深度图和特征图都作为下一个模块的输入,并且每一个模块输出的深度图都添加到损失函数中进行约束。
第一个模块输入的深度图为步骤1中所述ToF相机成像得到的深度图,输入特征图为步骤2.1中所述设定的普通卷积与空洞卷积的结果;而最后一个模块输出的深度图会自然地成为最终结果。这样网络的每一个模块的输入都是一个深度图以及包含着三维信息的特征图,每一个模块的任务都是根据此时的深度图以及特征图生成一个质量更高的深度图,并同时输出一个具有更深层次信息的特征图供下一个模块优化,形成了迭代优化的整体架构。
在具体实施中,对于迭代CNN模型,输入为(1)H*W*1的深度图,H、W分别为图像的高与宽。(2)H*W*C的特征图,C为通道数量。模块使用编解码器结构:深度图首先通过一个卷积成为特征图,然后和输入的特征图进行通道维度上的融合,之后通过一个下卷积将该特征图的尺度降至原先的一半同时将通道数增大一倍,即得到尺度为H/2*W/2*2C的特征图。将该结果通过若干个残差块进行处理,这一步得到的特征图将分为两路:一路经过上卷积和普通卷积得到一个与输入尺度相同的H*W*C的特征图,并与最初输入模块的特征图进行逐像素相加,得到更深层的特征图;另一路经过不同参数的上卷积以及普通卷积得到通道数为1的误差预测,并与输入的深度图逐像素相加,得到更精细的深度图。
步骤三、使用计算机图形学技术以及三维重建技术分别构建大型ToF数据集,包含充分误差模拟的相关系数图以及稠密的深度真值,并以此训练步骤二中的迭代CNN模型,从而为其赋予合适的参数。最终获得本发明所述的迭代算法模型。
上述步骤3的具体实施如下。这一步需要生成一个模拟数据集以及一个真实数据集,从而对本发明的主体CNN结构进行训练。
1)模拟数据集的生成:
构建或从开源社区获取3D模型表示的场景,然后对场景中物体的材质和反射率进行设置使最终生成的模拟数据集产生ToF相机的典型误差,过程中对相机设定不同的位姿,然后瞬态渲染器会得到相应的时间解析的渲染结果,表征了相机在该次拍摄中,每一时间切片接收到的光,尺寸为H*W*T,T为时间切片的总数,使用开源工作瞬态渲染器对场景进行渲染得到渲染结果,对渲染结果进行人为调制得到相关系数图:
Figure BDA0003075983340000101
Figure BDA0003075983340000102
Figure BDA0003075983340000103
Figure BDA0003075983340000104
其中,R表示瞬态渲染器输出的时间解析的渲染结果,R(i)表示第i个时间区间的渲染结果,N表示时间解析度,τ表示时间区间的长度。
模拟数据集的深度真值可直接由渲染器获取。
2)使用三维重建技术构建真实数据集:
将拟优化的目标ToF相机和一款业界高精度RGBD相机绑定,构成同步采集平台。RGBD相机采集场景图像序列,并采用SLAM技术对场景进行高精度的三维重建;目标ToF相机采用双频、四相工作模式,记录ToF相机在所有位姿下得到的相关系数图;基于两个相机的标定参数,将三维重建的结果投影到目标ToF相机的相机视点上,获得所有位姿的深度真值。
该数据集的覆盖场景包括:起居室、卧室、书房、卫生间、厨房、餐厅、书店、咖啡吧、图书馆、实验室、照相馆等。并在采集时包含了误差的主要来源,如噪声、多径干扰、吸收性低反射表面、高光镜面反射表面、不同环境光等。
步骤四:将步骤2构建好的卷积神经网络利用步骤3构造的数据集使用随机梯度下降法进行训练。训练时使用的损失函数的具体组成为一阶范数损失以及法线约束损失。其表达式分别为
Figure BDA0003075983340000111
Figure BDA0003075983340000112
其中Depthgt表示深度真值;DepthCNNi表示神经网络中各个模块,包括中间模块及输出模块输出的深度图;N代表参与计算的像素数量。
法线损失Lnormal中,α是权重,Normal是相机坐标系下的表面法线真值。其中pi,j在相机坐标系下的三维坐标可以使用步骤1中所述的三维转换函数得到:
Figure BDA0003075983340000113
这一步骤完成了本发明主体卷积神经网络架构的构建。此训练过程最终会找到上述模型的最优参数,从而完成卷积神经网络的训练。
步骤五:将ToF相机拍摄得到的原始相关系数图以及步骤1中得到的深度图和强度图共同输入上述的步骤2得到的卷积神经网络中,使用步骤4中训练得到的参数作为上述卷积神经网络的参数,取神经网络最后一个模块输出的深度图,即可得到本发明所述的深度图优化方法的优化结果。
图5展示了本发明的实验结果,展示了本发明在不同的、具有典型误差的场景中的表现。在书店场景中,书架与书之间的间隙里的低光强部分造成的误差被很好地修复了;厨房场景中,角落受到了典型的局部多径误差的影响,造成这一区域的深度值较大,这一点也很大程度上被修正了;在餐厅场景中,大理石桌面上的深度受到了严重的镜面反射的影响,因而出现了大范围的错误,本发明同样可以很好地处理这一类型的问题。
综上,本发明的方案将ToF相机的原始测量及根据原始测量处理得到的深度图与幅度图输入一个卷积神经网络中;该神经网络的主体结构由相同结构的模块级联组成,该模块捕获多尺度上下文并进行高层与底层信息的融合与传递,不断地对深度图进行迭代优化;该神经网络利用构造的模拟数据集以及真实数据集训练,并能够表现出良好的优化性能。

Claims (6)

1.一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,包括以下步骤:
步骤一:利用基本三角变换以及多频相位去模糊算法对调幅连续波ToF相机成像得到的相关系数图进行处理,得到场景的初始深度图和反射强度图;
步骤二:构建迭代CNN模型,迭代CNN模型的输入为ToF相机成像得到的相关系数图及其通过步骤一处理后得到的反射强度图和初始深度图,输出迭代优化后的深度图;
迭代CNN模型包括输入模块、多个依次级联的迭代模块和输出模块;输入模块包括金字塔空洞卷积模块、普通卷积模块;迭代模块由两个分支组成,第一个分支主要由依次连接的一个普通卷积层、一个下卷积层、两个级联的残差模块、一个上卷积层和一个普通卷积层组成,第二个分支包括一个普通卷积层、一个上卷积层和一个单核的普通卷积层组成;
步骤三:针对拟优化的目标ToF相机,使用计算机图形学技术以及三维重建技术构建ToF数据集,ToF数据集包括模拟数据集和真实数据集;
步骤四:利用步骤三构造的模拟数据集和真实数据集对步骤二的迭代CNN模型使用随机梯度下降法进行训练;
步骤五:采用步骤一的方法获取拟优化的目标ToF相机拍摄的深度图和强度图,将拟优化的目标ToF相机成像得到的相关系数图及其通过步骤一处理后得到的反射强度图和初始深度图,输入步骤四训练完成后的迭代CNN模型中,输出得到迭代优化后的深度图;
所述步骤二中:
对于输入模块:将相关系数图、反射强度图、初始深度图输入金字塔空洞卷积模块处理后输入普通卷积模块,普通卷积模块将相关系数图、强度图以及深度图的通道合并后得到特征图;
对于多个依次级联的迭代模块:每个迭代模块中两个分支的输入为输入特征图和输入深度图,输出为输出特征图和输出深度图;
输入特征图和输入深度图分别经第一个分支和第二个分支的普通卷积层后共同输入第一个分支的下卷积层,下卷积层的输出输入第一个残差模块,第一个残差模块的输出与第一个残差模块的输入相加后输入第二个残差模块,第二个残差模块的输出与第二个残差模块的输入相加后分别输入第一个分支和第二个分支的上卷积层,第一个分支的上卷积层的输出输入第一个分支的第二个普通卷积层后与输入迭代模块的特征图相加后作为迭代模块的输出特征图输出;第二个分支的上卷积层的输出输入第二个分支的第二个普通卷积层后与输入迭代模块的深度图相加后作为迭代模块的输出深度图输出;
第一个迭代模块的输入特征图为输入模块输出的特征图,输入深度图为初始深度图,其余迭代模块的输入特征图和输入深度图为前一个迭代模块的输出特征图和输出深度图,最后一个迭代模块输出的输出深度图作为输出模块的输出。
2.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,所述步骤一具体为:
ToF相机发射两个不同频率的幅度调制连续波,对每个频率的反射波与发射波之间的相关系数图,使用基本三角变换以及多频相位去模糊算法,得到场景的初始深度图和反射强度图:
1.1)对两个频率的相关系数图分别进行基本三角变换得到未经相位去模糊的两个点深度;
ToF相机的接收波与发射波的相位差
Figure FDA0003769148210000021
表示为:
Figure FDA0003769148210000022
其中,C0,C1,C2,C3为当前频率的幅度调制连续波在不同相移采样下成像得到的相关系数图;
不考虑相位差
Figure FDA0003769148210000023
的相位模糊性时,对应频率下测得的点深度Depth表示为:
Figure FDA0003769148210000024
其中,c为光速,f为调制频率;
两个频率对应的两个点深度分别记为Depth1和Depth2
1.2)根据多频相位去模糊算法得到深度图;
对于两个频率,计算第一个频率和第二个频率的最简比M1∶M2,并得到M1和M2的最大公约数gcd和M1在模M2域中的逆元k;
1.2.1)计算两个点深度Depth1和Depth2相差的归一化整数轮次e:
Figure FDA0003769148210000025
其中,λ1和λ2分别是两个不同频率的幅度调制连续波的波长;
去模糊后的深度图在第二个频率M2上的轮次可通过下式计算得到:
r=(k*round(e))mod M2
1.2.2)计算去模糊后的深度图中单个像素点的半径深度Depthradius
Figure FDA0003769148210000026
1.2.3)利用相机内参将去模糊后的深度图中单个像素点的半径深度转换为面深度:
首先计算得到单个像素点在拍摄场景中使用相机坐标系表示的坐标向量
Figure FDA0003769148210000031
Figure FDA0003769148210000032
其中,f,cx,cy均为相机内参;
Figure FDA0003769148210000033
是单个像素点在场景中使用相机坐标系表示的坐标向量;i,j表示在去模糊后的深度图中单个像素点的位置坐标;
Figure FDA0003769148210000034
为相机坐标系下三个坐标轴的方向向量;μ为相机的像素尺寸;
根据下述表达式得到去模糊后的深度图的面深度:
Figure FDA0003769148210000035
其中,m,n分别表示深度图分辨率的高与宽;
去模糊后的深度图的面深度,即为场景的初始深度图;
1.3)通过基本三角变换计算两个频率下的强度,每个频率的强度表示为:
Figure FDA0003769148210000036
将两个频率下的强度合并后取均值,即为场景的反射强度图。
3.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,
所述步骤二中,每个残差模块由一组1*1卷积核、一组3*3卷积核和一组1*1卷积核依次级联组成;
所述金字塔空洞卷积模块由16个普通卷积核,16个空洞率为6的空洞卷积核,16个空洞率为12的空洞卷积核,16个空洞率为18的空洞卷积核组成;
所述迭代模块中,第二个分支的普通卷积层将输入的单通道深度图处理为16通道的深度图;第一个分支和第二个分支的上卷积层均包括64个卷积核;第一个分支的第二个普通卷积层包括48个卷积核,第二个分支的第二个普通卷积层为单核。
4.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,所述步骤三具体为:
3.1)使用计算机图形学技术生成模拟数据集:
构建或从开源社区获取3D模型表示的场景,然后对场景中物体的材质和反射率进行设置使最终生成的模拟数据集产生ToF相机的典型误差,使用瞬态渲染器对场景进行渲染得到渲染结果,对渲染结果进行人为调制得到相关系数图:
Figure FDA0003769148210000041
Figure FDA0003769148210000042
Figure FDA0003769148210000043
Figure FDA0003769148210000044
其中,R(i)表示瞬态渲染器在第i个时间区间输出的渲染结果;N表示时间解析度;τ表示时间区间的长度;f为相机发出/接收的调制波的调制频率;
通过渲染器直接获取模拟数据集的深度真值;
3.2)使用三维重建技术构建真实数据集:
将目标ToF相机和RGBD相机绑定,构成同步采集平台;目标ToF相机采用双频四相工作模式,记录ToF相机在所有位姿下得到的相关系数图;RGBD相机采集场景图像序列,并采用SLAM技术对场景进行三维重建;基于两个相机的标定参数,将三维重建的结果投影到目标ToF相机的相机视点上,获得所有位姿的深度真值。
5.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,所述步骤四训练时使用的损失函数为一阶范数损失以及法线约束损失。
6.根据权利要求1所述的一种基于卷积神经网络的飞行时间深度图像的迭代优化方法,其特征在于,迭代CNN模型在训练过程中,将每个迭代模块输出的深度图添加至损失函数中进行约束。
CN202110553035.8A 2021-05-20 2021-05-20 基于卷积神经网络的飞行时间深度图像的迭代优化方法 Active CN113240604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553035.8A CN113240604B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的飞行时间深度图像的迭代优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553035.8A CN113240604B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的飞行时间深度图像的迭代优化方法

Publications (2)

Publication Number Publication Date
CN113240604A CN113240604A (zh) 2021-08-10
CN113240604B true CN113240604B (zh) 2022-09-16

Family

ID=77137839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553035.8A Active CN113240604B (zh) 2021-05-20 2021-05-20 基于卷积神经网络的飞行时间深度图像的迭代优化方法

Country Status (1)

Country Link
CN (1) CN113240604B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12095963B2 (en) * 2020-11-27 2024-09-17 Verity Ag Systems and methods for processing time of flight sensor data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021023384A1 (en) * 2019-08-07 2021-02-11 Huawei Technologies Co., Ltd. Time-of-flight depth enhancement
CN112712476B (zh) * 2020-12-17 2023-06-02 豪威科技(武汉)有限公司 用于tof测距的去噪方法及装置、tof相机

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12095963B2 (en) * 2020-11-27 2024-09-17 Verity Ag Systems and methods for processing time of flight sensor data

Also Published As

Publication number Publication date
CN113240604A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Jeon et al. Depth from a light field image with learning-based matching costs
Nalpantidis et al. Stereo vision for robotic applications in the presence of non-ideal lighting conditions
KR102141163B1 (ko) Sar 영상 생성을 위한 뉴럴 네크워크 학습 방법 및 장치.
Bergman et al. Deep adaptive lidar: End-to-end optimization of sampling and depth completion at low sampling rates
JP2016509208A (ja) 距離センサ・カメラからのデータをノイズ除去する方法および装置
CN106952304B (zh) 一种利用视频序列帧间相关性的深度图像计算方法
Merras et al. Multi-view 3D reconstruction and modeling of the unknown 3D scenes using genetic algorithms
CN113962858A (zh) 一种多视角深度获取方法
CN113240604B (zh) 基于卷积神经网络的飞行时间深度图像的迭代优化方法
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN113284251A (zh) 一种自适应视角的级联网络三维重建方法及系统
Conde A material-sensing time-of-flight camera
Carlson et al. Cloner: Camera-lidar fusion for occupancy grid-aided neural representations
US11609332B2 (en) Method and apparatus for generating image using LiDAR
He et al. 3d radio imaging under low-rank constraint
Wang et al. Self-supervised learning for RGB-guided depth enhancement by exploiting the dependency between RGB and depth
Plank et al. High performance time-of-flight and color sensor fusion with image-guided depth super resolution
CN116310228A (zh) 一种针对遥感场景的表面重建与新视图合成方法
JP7197003B2 (ja) 深度推定装置、深度推定方法、及び深度推定プログラム
Patil et al. Mitigating Multipath Interference for Time of Flight Range Sensors via Deep Convolutional Networks
CN115222790B (zh) 单光子三维重建方法、系统、设备及存储介质
CN114998683B (zh) 一种基于注意力机制的ToF多径干扰去除方法
US20240125935A1 (en) Arithmetic operation system, training method, and non-transitory computer readable medium storing training program
US20240126953A1 (en) Arithmetic operation system, training method, and non-transitory computer readable medium storing training program
CN114119698B (zh) 基于注意力机制的无监督单目深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant