CN110728707A - 基于非对称深度卷积神经网络的多视角深度预测方法 - Google Patents

基于非对称深度卷积神经网络的多视角深度预测方法 Download PDF

Info

Publication number
CN110728707A
CN110728707A CN201910998790.XA CN201910998790A CN110728707A CN 110728707 A CN110728707 A CN 110728707A CN 201910998790 A CN201910998790 A CN 201910998790A CN 110728707 A CN110728707 A CN 110728707A
Authority
CN
China
Prior art keywords
neural network
parallax
feature
prediction
disparity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910998790.XA
Other languages
English (en)
Other versions
CN110728707B (zh
Inventor
裴炤
田龙伟
汶得强
张艳宁
马苗
汪西莉
陈昱莅
武杰
杨红红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201910998790.XA priority Critical patent/CN110728707B/zh
Publication of CN110728707A publication Critical patent/CN110728707A/zh
Application granted granted Critical
Publication of CN110728707B publication Critical patent/CN110728707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Abstract

本公开揭示了一种基于非对称深度卷积神经网络的多视角深度预测方法,包括:构建一种非对称深度卷积神经网络;结合参考图像,将相邻图像构造为平面扫描卷;在现有数据集上预先训练第一神经网络;使用第一神经网络的模型参数进一步初始化第二神经网络这一非对称深度卷积神经网络;最终通过第二神经网络完成多视角深度预测。本公开允许输入任意数量和任意分辨率的不同视角的图像,减少了繁琐的手工操作,也减少限制约束,从而实现了对多目图像所产生的不同视角图像的深度的高精度预测。

Description

基于非对称深度卷积神经网络的多视角深度预测方法
技术领域
本公开属于计算机视觉技术领域,具体涉及基于非对称深度卷积神经网络的多视角深度预测方法。
背景技术
挖掘图像所包含的深度信息可以生成准确的深度图,目前深度预测研究已应用于3D重建领域并取得了显著成果。与深度学习方法相比,传统的图像深度预测方法需要大量的资源和大量繁琐的手工操作,如立体匹配和手工标记等。目前,基于深度学习的图像深度预测方法主要利用单目图像进行预测。而基于深度学习的多视角深度预测方法不仅可以减少繁琐的人工操作,而且可以减少限制条件。特别是对于结构简单、没有结构等细节场景的预测,比传统方法更准确、更稳定。将卷积神经网络应用于视觉重建问题,早期的工作主要是集中在利用图像的相似性进行立体匹配,最近的研究使用端到端的学习进行立体重建,然而,这些方法对相机的相对位姿或输入图像的数量有限制,或者会产生粗略的体积重构。
发明内容
为了解决上述技术问题,本公开揭示了一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:
S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;
S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;
S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别
Figure BDA0002239546110000011
上进行WarpAffine 仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有
Figure BDA0002239546110000021
张仿射变换后的相邻图像的平面扫描卷;
S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:
特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;
第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;
特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;
S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:
训练第一神经网络所采用的损失函数的公式为:
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:
其中,
所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第 1至第5视差预测卷积块对视差信息进行预测;
S700、对于所述第二神经网络,将学习率设置为10-6,限制L2范式不超过0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代 320000次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第二神经网络并保存模型参数,并且:
训练第二神经网络所采用的损失函数的公式为:
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入,通过步骤S700训练所得的第二神经网络,求得该确定场景中的所述参考图像的深度图。
以此,本公开实现了一种不限制图像数量,也不限制图像分辨率的多视角深度预测方法。这使得本公开能够使用一个深度神经网络模型实现场景的多视角深度预测,提升了深度预测的准确性和鲁棒性,获得较为清晰的深度图。即使图像是RGB图像,也不受限制,也就是说,本公开能够用于拟合RGB图像和视差图之间的关系,然后将拟合出来的视差图转换为深度图。
此外,本公开所述的非对称结构卷积神经网络中的每一卷积层都可以进一步优先使用非线性激活函数,利用非线性的激活函数给本公开所述的非对称卷积神经网络引入非线性,使其拥有拟合非线性的能力。例如拟合RGB图像和视差图之间的关系,然后将拟合出来的视差图转换为深度图。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1方法流程图;
图2本发明使用的深度卷积神经网络结构图;
图3a、图3b为测试结果效果图,其中,图3a为原图,图3b为深度图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图1至图3a、图3b,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及附图中的术语,即使记载有“第一”、“第二”等,其仅仅是用于区别一些对象而已,而并非用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
此外,本公开所称的“由前向后”遵循本领域中前向传播的特点。
在一个实施例中,本公开揭示了一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:
S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;
S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;
S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别
Figure BDA0002239546110000051
上进行 WarpAffine仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有
Figure BDA0002239546110000052
张仿射变换后的相邻图像的平面扫描卷;
S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:
特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;
第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;
特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;
S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:
训练第一神经网络所采用的损失函数的公式为:
Figure BDA0002239546110000061
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:
其中,
所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第 1至第5视差预测卷积块对视差信息进行预测;
S700、对于所述第二神经网络,将学习率设置为10-6,限制L2范式不超过 0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代320000 次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法 (Adam)迭代训练所述第二神经网络并保存模型参数,并且:
训练第二神经网络所采用的损失函数的公式为:
Figure BDA0002239546110000071
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入,通过步骤S700训练所得的第二神经网络,求得该确定场景中的所述参考图像的深度图。
至此,能够理解,当第二神经网络作为本方法的关键被训练得到后,其自然可以用于解决实际的待预测的另外某一确定场景中相关的深度预测问题。需要说明的是,使用自适应时刻估计法可以使得本实施例在神经网络模型训练优化过程中通过让每个参数获得自适应的学习率,这是为了达到优化质量和速度的双重提升。所述损失函数则用于优化模型的输出深度图,其涉及真实视差级别的概率。
在另一个实施例中,其中,所述步骤S200中的视差级别通过如下方式确定:
将所述第一图像序列输入三维重建COLMAP系统,利用三维重建COLMAP系统分别估计相机姿态和稀疏重建模型中各个特征之间的距离,最大的一个即为最大视差,以最大视差作为最高视差级别,并将最大视差等分,每一等份为一个视差级别其中,
所述稀疏重建模型是三维重建COLMAP系统根据其所接收的图像序列所包含的颜色和深度信息重建的点云模型;
所述各个特征则是所述点云模型中捕捉到的物体的特征,其通过不同深度下的物体所对应的点云来表征。
就该实施例而言,其给出了视差级别的一种确定方式,其利用了三维重建 COLMAP系统。能够理解,也可以采取其他合适的方式确定视差级别。
在另一个实施例中,其中,所述步骤S600中的第二神经网络还包括:
第1至第3视差增强卷积块;
所述第二神经网络还通过第1至第3视差增强卷积块分别作用于第3至第5 视差预测卷积块,以使得空间特征加倍并优化最终输出的预测结果:预测的每个视差级别上的信息。
就该实施例而言,视差增强卷积块能够让空间特征加倍,优化预测结果。
在另一个实施例中,其中:
对于所述特征融合模块,其中的四个卷积层输出的特征图的通道数分别为: 64,96,32,4;
对于所述特征聚合模块,所述聚合后的特征图的通道数分别为400,100,所述特征聚合模块的两个卷积层最终生成100通道的聚合后的特征图。
能够理解,这是对于有关通道的具体限定,显而易见的,本公开并不排斥其他的合理、可行的通道的具体限定。
在另一个实施例中,其中:
所述第一数据集、第二数据集和第三数据集分别为ImageNet,DeMoN和 MVS-SYNTH数据集。
需要说明的是,使用公开数据集DeMoN(其中包括一系列真实场景数据集 SUN3D,RGB-D SLAM,CITYWALL和ACHTECK-TURM和一个合成数据集SCENES11)和 MVS-SYNTH训练所述神经网络,根源在于:DeMoN数据集包括上万个真实室内室外场景,包括走廊,办公室,书房,图书馆,仓库,建筑物,公园等等,每个场景包括不同数量,不同分辨率的多张图像;MVS-SYNTH数据集是从游戏场景中截取的,包含120个场景,每个场景包含100张分辨率为1920*1080的图像,当其用于本公开时,通过改变分辨率为1280*720和960*540进行数据增强,使合成场景数据扩大至3倍,也能得到不同分辨率的图像。能够理解,优选的,每个场景中不同视角的图像构成一个图像序列。
在另一个实施例中,其中:
所述第二数据集包括如下两类数据集中的任一或其组合:真实数据集、合成数据集;
第三数据集为针对第二数据集的合成数据集。
对于该实施例而言,就数据集而言,真实场景的数据集包含测量误差,而合成数据集有不真实的外观,并且不能像真实图像一样表现出某些特征,例如光照、景深等。因此合成数据集可以作为真实数据集的一个补充。例如后文提到的测试情况,测试集为ETH3D数据集和自己拍摄的10组室外场景数据,ETH3D包括13 组真实的室内室外场景和通过高精度激光扫面仪获得的图像深度图。
在另一个实施例中,其中:
对于第二视差预测核心模块,其中,第1和第2特征提取卷积块均由:由前向后的、依次连接的第一5*5卷积层、第二5*5卷积层构成,其中第2特征提取卷积块的第一个卷积层步长为2,第3至第6特征提取卷积块均由:由前向后的、依次连接的第一3*3卷积层、第二3*3卷积层构成,其中第一个卷积层步长为2。
在另一个实施例中,其中:
对于第二视差预测核心模块,其中,第1至第5视差预测卷积块均由:由前向后的、依次连接的一个上采样层、第一3*3卷积层、第二3*3卷积层构成。
在另一个实施例中,其中:
对于第二视差预测核心模块,其中,第1至第3视差增强卷积块均由:由前向后的、依次连接的一个3*3的卷积层和一个上采样层构成,并且:
所述第1视差增强卷积块中的卷积层的输入来源于第2视差预测卷积块中的第二3*3卷积层的输出;
所述第1视差增强卷积块中的上采样层则进一步输出至第3视差预测卷积块中的第二3*3卷积层;
所述第2视差增强卷积块中的卷积层的输入来源于第3视差预测卷积块中的第二3*3卷积层的输出;
所述第2视差增强卷积块中的上采样层则进一步输出至第4视差预测卷积块中的第二3*3卷积层;
所述第3视差增强卷积块中的卷积层的输入来源于第4视差预测卷积块中的第二3*3卷积层的输出;
所述第3视差增强卷积块中的上采样层则进一步输出至第5视差预测卷积块中的第二3*3卷积层。
在另一个实施例中,其中:
第1至第6特征提取卷积块输出的特征图的通道数分别为:600,800,1000, 1000,1000,1000;
第1至第5视差预测卷积块输出的特征图通道数分别为:1000,1000,800, 600,800;
第1至第3视差增强卷积块输出的特征图的通道数分别为:100,100,100;
并且,
在输出相同大小特征图的特征提取卷积块和视差预测卷积块之间有跳跃连接结构,把特征提取卷积块的结构和视差预测的结果在通道维度上拼接在一起,包括:
第1特征提取卷积块与第5视差预测卷积块之间有跳跃连接结构;
第2特征提取卷积块与第4视差预测卷积块之间有跳跃连接结构;
第3特征提取卷积块与第3视差预测卷积块之间有跳跃连接结构;
第4特征提取卷积块与第2视差预测卷积块之间有跳跃连接结构;
第5特征提取卷积块与第1视差预测卷积块之间有跳跃连接结构。
需要说明的是,跳跃连接结构能够充分利用不同尺度的空间特征,改善预测结果。
在本公开中,所有卷积层的非线性激活函数优先采用缩放指数线性单元激活函数。这是因为,对于本公开所要解决的多视角深度预测问题,发明人发现:采用缩放指数线性单元激活函数能够防止过拟合,相比其他激活函数而言,能够解决其他激活函数进入非线性饱和区带来的梯度弥散问题。
发明人对本公开的实施例进行测试的情况如下:
本发明以英伟达GPU作为计算平台,使用PyTorch深度学习框架作为非对称深度卷积神经网络框架。由于GPU内存的限制,我们设置视差级别为100,相邻图像数量为4,计算可获得4*100的平面扫描卷。
按照图1所示流程,使用如图2所示的网络结构,效果如图3a,图3b所示。实验环境为:显卡:NVIDIA TITAN XP,PyTorch:0.3.1版本,使用ETH3D数据集进行测试并与传统的算法以及基于深度网络的算法进行比较。我们用以下评估方法评估本发明的结果,三个参数的计算结果越小,说明网络的预测精度越高,预测能力越强:
Figure BDA0002239546110000111
Figure BDA0002239546110000112
Figure BDA0002239546110000113
其中,di为预测的深度值,
Figure BDA0002239546110000114
表示真实的深度值,
L1-inv表示预测值和真实值之间的L1距离。 L1-rel表示预测值和真实值之间的相对误差。SC-inv表示预测值和真实值的尺度不变误差。
结果对比:
Figure BDA0002239546110000116
结合附图能够发现,本公开所揭示的方法对于天空,树枝,玻璃等物体具有更高的准确性和鲁棒性,增强了可扩展性,显著改善了深度预测性能,取得了非常不错的技术效果。
以上仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于非对称深度卷积神经网络的多视角深度预测方法,包括如下步骤:
S100、定义第一图像序列,其中,所述第一图像序列具备如下特征:所述第一图像序列不限制其中的图像数量、所述图像序列中的各个图像的分辨率是否相同不受限制、所述图像序列中的图像至少包括针对某一确定场景的多张不同视角的图像;
S200、任意选取所述第一图像序列中的一张图像作为所述确定场景中的参考图像;
S300、计算出图像序列中其余图像与参考图像的重叠率,并选取重叠率最高的N张作为所有的相邻图像,N最小能够取1;然后,对于N张相邻图像中的每一张相邻图像,根据参考图像对相邻图像在每个视差级别
Figure FDA0002239546100000011
上进行WarpAffine仿射变换,并将仿射变换后的相邻图像存储在一个平面扫描卷中,以此构造出包括有
Figure FDA0002239546100000012
张仿射变换后的相邻图像的平面扫描卷;
S400、构建第一神经网络,所述第一神经网络包括由前向后依次连接的:特征融合模块、第一视差预测核心模块、特征聚合模块,其中:
特征融合模块,用于将参考图像和所述平面扫描卷中的仿射变换后的相邻图像的每一视差级别的特征融合并输出融合后的特征图,其中,所述特征融合模块包括由前向后依次连接的四个5*5卷积层;
第一视差预测核心模块,用于根据前一个模块所输出的融合后的特征图进行特征提取和对视差信息进行预测,其中,所述第一视差预测核心模块包括由前向后依次连接的两个卷积层,其中一个卷积层用于特征提取,另一个卷积层用于对视差信息进行预测以预测每个视差级别上的信息;
特征聚合模块,用于利用最大池化对前一个模块所预测的每个视差级别上的信息进行聚合以得到深度图,其中,所述特征聚合模块包括依次连接的一个池化层和两个卷积层,经过所述两个卷积层生成聚合后的特征图,所述聚合后的特征图经过全连通条件随机场优化得到1通道的视差图,求倒数得到所述确定场景中的所述参考图像的深度图;
S500、对于所述第一神经网络,将学习率设置为10-5,限制L2范式不超过1.0,并且:按照上述步骤S100所定义的第一图像序列,在第一数据集上选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以预先训练所述第一神经网络;训练迭代320000次后,保存所述第一神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第一神经网络并保存模型参数,并且:
训练第一神经网络所采用的损失函数的公式为:
Figure FDA0002239546100000021
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S600、构建第二神经网络,所述第二神经网络为所述非对称深度卷积神经网络;并且,所述第二神经网络:原样采用第一神经网络中的特征融合模块和特征聚合模块,但采用第二视差预测核心模块替换所述第一神经网络中的第一视差预测核心模块,以此形成由前向后依次连接的:特征融合模块、第二视差预测核心模块、特征聚合模块,并且:
其中,
所述第二视差预测核心模块由前向后依次为:第1至第6特征提取卷积块,第1至第5视差预测卷积块,且所述6个特征提取卷积块与5个视差预测卷积块之间的非对称使得所述第二神经网络构造为非对称深度卷积神经网络,其中,所述第二视差预测核心模块通过第1至第6特征提取卷积块进行特征提取,通过第1至第5视差预测卷积块对视差信息进行预测;
S700、对于所述第二神经网络,将学习率设置为10-6,限制L2范式不超过0.1,利用步骤S500中所保存的第一神经网络的模型参数初始化第二神经网络,并且:按照上述步骤S100所定义的第一图像序列,在第二数据集上、以及在属于可选而非必选的第三数据集上,从中选取多张图像作为所述第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入以用于训练所述第二神经网络,训练迭代320000次后,保存所述第二神经网络的模型参数;其中,该步骤使用自适应时刻估计法(Adam)迭代训练所述第二神经网络并保存模型参数,并且:
训练第二神经网络所采用的损失函数的公式为:
其中,n为视差级别数目,y为真实值相对应的视差级别,x为一个视差级别的一组预测值;
S800、以待预测的另外某一确定场景的多张不同视角的图像作为第一图像序列,然后分别按照上述步骤S200、S300得到对应的参考图像、平面扫描卷,并以该参考图像、平面扫描卷作为输入,通过步骤S700训练所得的第二神经网络,求得该确定场景中的所述参考图像的深度图。
2.根据权利要求1所述的方法,其中,优选的,所述步骤S200中的视差级别通过如下方式确定:
将所述第一图像序列输入三维重建COLMAP系统,利用三维重建COLMAP系统分别估计相机姿态和稀疏重建模型中各个特征之间的距离,最大的一个即为最大视差,以最大视差作为最高视差级别,并将最大视差等分,每一等份为一个视差级别
Figure FDA0002239546100000032
其中,
所述稀疏重建模型是三维重建COLMAP系统根据其所接收的图像序列所包含的颜色和深度信息重建的点云模型;
所述各个特征则是所述点云模型中捕捉到的物体的特征,其通过不同深度下的物体所对应的点云来表征。
3.根据权利要求1所述的方法,其中,所述步骤S600中的第二神经网络还包括:
第1至第3视差增强卷积块;
所述第二神经网络还通过第1至第3视差增强卷积块分别作用于第3至第5视差预测卷积块,以使得空间特征加倍并优化最终输出的预测结果:预测的每个视差级别上的信息。
4.根据权利要求1所述的方法,其中:
对于所述特征融合模块,其中的四个卷积层输出的特征图的通道数分别为:64,96,32,4;
对于所述特征聚合模块,所述聚合后的特征图的通道数分别为400,100,所述特征聚合模块的两个卷积层最终生成100通道的聚合后的特征图。
5.根据权利要求1所述的方法,其中:
所述第一数据集、第二数据集和第三数据集分别为ImageNet,DeMoN和MVS-SYNTH数据集。
6.根据权利要求1所述的方法,其中:
所述第二数据集包括如下两类数据集中的任一或其组合:真实数据集、合成数据集;
第三数据集为针对第二数据集的合成数据集。
7.根据权利要求1所述的方法,其中:
对于第二视差预测核心模块,其中,第1和第2特征提取卷积块均由:由前向后的、依次连接的第一5*5卷积层、第二5*5卷积层构成,其中第2特征提取卷积块的第一个卷积层步长为2,第3至第6特征提取卷积块均由:由前向后的、依次连接的第一3*3卷积层、第二3*3卷积层构成,其中第一个卷积层步长为2。
8.根据权利要求1所述的方法,其中:
对于第二视差预测核心模块,其中,第1至第5视差预测卷积块均由:由前向后的、依次连接的一个上采样层、第一3*3卷积层、第二3*3卷积层构成。
9.根据权利要求3所述的方法,其中:
对于第二视差预测核心模块,其中,第1至第3视差增强卷积块均由:由前向后的、依次连接的一个3*3的卷积层和一个上采样层构成,并且:
所述第1视差增强卷积块中的卷积层的输入来源于第2视差预测卷积块中的第二3*3卷积层的输出;
所述第1视差增强卷积块中的上采样层则进一步输出至第3视差预测卷积块中的第二3*3卷积层;
所述第2视差增强卷积块中的卷积层的输入来源于第3视差预测卷积块中的第二3*3卷积层的输出;
所述第2视差增强卷积块中的上采样层则进一步输出至第4视差预测卷积块中的第二3*3卷积层;
所述第3视差增强卷积块中的卷积层的输入来源于第4视差预测卷积块中的第二3*3卷积层的输出;
所述第3视差增强卷积块中的上采样层则进一步输出至第5视差预测卷积块中的第二3*3卷积层。
10.根据权利要求3所述的方法,其中:
第1至第6特征提取卷积块输出的特征图的通道数分别为:600,800,1000,1000,1000,1000;
第1至第5视差预测卷积块输出的特征图通道数分别为:1000,1000,800,600,800;
第1至第3视差增强卷积块输出的特征图的通道数分别为:100,100,100;
并且,
在输出相同大小特征图的特征提取卷积块和视差预测卷积块之间有跳跃连接结构,把特征提取卷积块的结构和视差预测的结果在通道维度上拼接在一起,包括:
第1特征提取卷积块与第5视差预测卷积块之间有跳跃连接结构;
第2特征提取卷积块与第4视差预测卷积块之间有跳跃连接结构;
第3特征提取卷积块与第3视差预测卷积块之间有跳跃连接结构;
第4特征提取卷积块与第2视差预测卷积块之间有跳跃连接结构;
第5特征提取卷积块与第1视差预测卷积块之间有跳跃连接结构。
CN201910998790.XA 2019-10-18 2019-10-18 基于非对称深度卷积神经网络的多视角深度预测方法 Active CN110728707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910998790.XA CN110728707B (zh) 2019-10-18 2019-10-18 基于非对称深度卷积神经网络的多视角深度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910998790.XA CN110728707B (zh) 2019-10-18 2019-10-18 基于非对称深度卷积神经网络的多视角深度预测方法

Publications (2)

Publication Number Publication Date
CN110728707A true CN110728707A (zh) 2020-01-24
CN110728707B CN110728707B (zh) 2022-02-25

Family

ID=69220377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910998790.XA Active CN110728707B (zh) 2019-10-18 2019-10-18 基于非对称深度卷积神经网络的多视角深度预测方法

Country Status (1)

Country Link
CN (1) CN110728707B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340866A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 深度图像生成方法、装置及存储介质
CN111476714A (zh) * 2020-03-30 2020-07-31 清华大学 基于psv神经网络的跨尺度图像拼接方法及装置
CN111583305A (zh) * 2020-05-11 2020-08-25 北京市商汤科技开发有限公司 神经网络训练及运动轨迹确定方法、装置、设备和介质
CN111652921A (zh) * 2020-04-21 2020-09-11 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN112233160A (zh) * 2020-10-15 2021-01-15 杭州知路科技有限公司 一种基于双目摄像头的实时深度及置信度的预测方法
CN112866694A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BENJAMIN UMMENHOFER等: "DeMoN: Depth and Motion Network for Learning Monocular Stereo", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
NIKOLAUS MAYER等: "A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
PO-HAN HUANG等: "DeepMVS: Learning Multi-view Stereopsis", 《 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
SCHONBERGER, JOHANNES L.等: "Pixelwise View Selection for Unstructured Multi-View Stereo", 《COMPUTER VISION - ECCV 2016》 *
XIAORAN JIANG等: "A Learning Based Depth Estimation Framework for 4D Densely and Sparsely Sampled Light Fields", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
ZHAO PEI等: "A novel method for detecting occluded object by multiple camera arrays", 《 2012 9TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340866A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 深度图像生成方法、装置及存储介质
CN111340866B (zh) * 2020-02-26 2024-03-01 腾讯科技(深圳)有限公司 深度图像生成方法、装置及存储介质
CN111476714A (zh) * 2020-03-30 2020-07-31 清华大学 基于psv神经网络的跨尺度图像拼接方法及装置
CN111476714B (zh) * 2020-03-30 2022-10-28 清华大学 基于psv神经网络的跨尺度图像拼接方法及装置
CN111652921A (zh) * 2020-04-21 2020-09-11 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN111652921B (zh) * 2020-04-21 2023-04-28 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN111583305A (zh) * 2020-05-11 2020-08-25 北京市商汤科技开发有限公司 神经网络训练及运动轨迹确定方法、装置、设备和介质
CN112233160A (zh) * 2020-10-15 2021-01-15 杭州知路科技有限公司 一种基于双目摄像头的实时深度及置信度的预测方法
CN112233160B (zh) * 2020-10-15 2022-04-19 杭州知路科技有限公司 一种基于双目摄像头的实时深度及置信度的预测方法
CN112866694A (zh) * 2020-12-31 2021-05-28 杭州电子科技大学 联合非对称卷积块和条件上下文的智能图像压缩优化方法

Also Published As

Publication number Publication date
CN110728707B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110728707B (zh) 基于非对称深度卷积神经网络的多视角深度预测方法
CN107403430B (zh) 一种rgbd图像语义分割方法
CN105359190B (zh) 根据单个图像估计深度
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN110223351B (zh) 一种基于卷积神经网络的深度相机定位方法
CN115457531A (zh) 用于识别文本的方法和装置
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN114092697B (zh) 注意力融合全局和局部深度特征的建筑立面语义分割方法
CN103020963B (zh) 一种基于自适应分水岭的图割的多目立体匹配方法
CN110782458A (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN114463492A (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN116543227A (zh) 基于图卷积网络的遥感图像场景分类方法
CN116468769A (zh) 一种基于图像的深度信息估计方法
CN111640116A (zh) 基于深层卷积残差网络的航拍图建筑物分割方法及装置
JP2006284704A (ja) 立体地図簡略化装置及び立体地図簡略化方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN111368882B (zh) 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN114913433A (zh) 一种联合均衡特征和可变形卷积的多尺度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant