CN110335299A - 一种基于对抗网络的单目深度估计系统实现方法 - Google Patents
一种基于对抗网络的单目深度估计系统实现方法 Download PDFInfo
- Publication number
- CN110335299A CN110335299A CN201910349584.6A CN201910349584A CN110335299A CN 110335299 A CN110335299 A CN 110335299A CN 201910349584 A CN201910349584 A CN 201910349584A CN 110335299 A CN110335299 A CN 110335299A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- depth
- training
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于对抗网络的单目深度估计系统实现方法,涉及单目图像深度估计。包括训练阶段和测试,所述训练阶段的具体步骤为:收集用于训练的RGB图像集和前n张图像对应的深度图像集合;根据设计的网络结构初始化生成器网络参数θG和两个判别器网络的参数θPD,θDD;设置训练的迭代次数;所述测试阶段的具体步骤为:导入训练好的生成器网络权重;将一张图像作为输入传递给生成器网络;使用导入的网络权重对输入图像进行计算,网络输出输入图像中每个像素点对应的深度值信息。打破了主动深度感知硬件深度空洞和深度稀疏的瓶颈,并且保持了比较高的深度恢复精度,对场景重建、无人驾驶、增强现实等领域都有着重要的实用价值和意义。
Description
技术领域
本发明涉及单目图像深度估计,尤其是涉及一种基于对抗网络的单目深度估计系统实现方法。
背景技术
当人类看到一张图像时,往往可以很容易地理解其中的场景三维结构。然而,对于目前的计算机视觉系统来说,推断场景的三维结构依然是一个十分困难的问题。确实,从一个较窄的数学视角来讲,从单张图像中恢复出三维结构是不可能的,因为我们无法知道一张图像是对着照片拍摄的(这种情况下所有的深度都应该在一个平面上)还是对着真实三维场景拍摄的。但在现实生活中人们仅仅通过一张照片就可以对照片中的场景深度有非常好的感知,并且在所有可能的深度值中,绝大多数的可能性在现实世界中都是不可能的。因此,单目图像中的深度还是可以被以相当可观的准确率预估的。
借助预估出的深度值,计算机视觉中的很多任务都可以得到相较于仅使用RGB图像时的性能提升。这其中包括重建[1]、识别[2]、语义分割[3]以及人体姿态估计[4]等。通过结合深度信息,这些任务可以更好地区分出物体边界以及相对位置,进而更好地完成相应的任务。
除此之外,相较于使用主动感知的传感器来获取场景深度,基于视觉的深度估计更加灵活,同时也是一个更加低成本的解决方案,尤其是受益于近期基于深度学习的深度估计模型[5,6,7]的成功。伴随《新一代人工智能发展规划》的制定,人工智能领域的相关技术已经升级为国家战略,而从单目图像中恢复深度值则是人工智能和计算机视觉等领域中的重点环节之一。
参考文献:
[1]Silberman N,Hoiem D,Kohli P,et al.Indoor segmentation and supportinference from rgbd images[C].European Conference on ComputerVision.Springer,Berlin,Heidelberg,2012:746-760.
[2]Ren X,Bo L,Fox D.Rgb-(d)scene labeling:Features and algorithms[C].Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:2759-2766.
[3]Eigen D,Fergus R.Predicting depth,surface normals and semanticlabels with a common multi-scale convolutional architecture[C].Proceedings ofthe IEEE International Conference on Computer Vision.2015:2650-2658.
[4]Taylor J,Shotton J,Sharp T,et al.The vitruvian manifold:Inferringdense correspondences for one-shot human pose estimation[C].Computer Visionand Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:103-110.
[5]Eigen D,Puhrsch C,Fergus R.Depth map prediction from a singleimage using a multi-scale deep network[C].Advances in neural informationprocessing systems.2014:2366-2374.
[6]Laina I,Rupprecht C,Belagiannis V,et al.Deeper depth predictionwith fully convolutional residual networks[C].3D Vision(3DV),2016 FourthInternational Conference on.IEEE,2016:239-248.
[7]Xu D,Ricci E,Ouyang W,et al.Multi-scale continuous crfs assequential deep networks for monocular depth estimation[C].Proceedings ofCVPR.2017.
发明内容
本发明的目的在于提供一种基于对抗网络的单目深度估计系统实现方法。
本发明包括训练阶段和测试,所述训练阶段的具体步骤为:
1)收集用于训练的RGB图像集I={I1,I2,...,In,In+1,...,In+m}和前n张图像对应的深度图像集合D={D1,D2,...,Dn};
2)根据设计的网络结构初始化生成器网络参数θG和两个判别器网络的参数θPD,θDD;
3)设置训练的迭代次数,在每次迭代中:
3.1从{I1,I2,...,In}和{D1,D2,...,Dn}中采样k个图像-深度图图像对{(i,d)(1),...,(i,d)(k)}组成一个用于训练的子集和;
3.2从{In+1,...,In+m}中采样k张图像{i'(1),...,i'(k)}组成一个用于训练的子集和;
3.3用SGD更新图像-深度图图像对判别器网络(PD)参数:
3.4用SGD更新深度图判别器网络(DD)参数:
3.5从{In+1,...,In+m}中采样k张图像{i”(1),...,i”(k)}组成一个用于训练的子集和;
3.6用SGD更生成器网络(G)参数:
所述测试阶段的具体步骤为:
1)导入训练好的生成器网络权重;
2)将一张图像作为输入传递给生成器网络;
3)使用步骤1)中导入的网络权重对输入图像进行计算,网络输出输入图像中每个像素点对应的深度值信息。
本发明借助深度学习技术,设计了一个基于生成对抗网络的单目图像深度估计系统,很好地解决了目前现有方法存在的两个关键问题——即物体边界模糊和需要大量的训练集。该系统不仅有更小的训练数据集要求和时间开销,还能够准确的预测环境整体深度并区分物体边界,在针对室内和室外环境都可以实时估计出深度值。同时,本发明打破了主动深度感知硬件深度空洞和深度稀疏的瓶颈,并且保持了比较高的深度恢复精度,对场景重建、无人驾驶、增强现实等领域都有着重要的实用价值和意义。
附图说明
图1为本发明的框架图。
图2为本发明的生成器网络结构示意图。
图3为本发明的判别器网络结构示意图。
图4为本发明在室内环境下的效果示意图。
图5为本发明在室外环境下的效果示意图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括训练阶段和测试,所述训练阶段的具体步骤为:
1)收集用于训练的RGB图像集I={I1,I2,...,In,In+1,...,In+m}和前n张图像对应的深度图像集合D={D1,D2,...,Dn};
2)根据设计的网络结构初始化生成器网络参数θG和两个判别器网络的参数θPD,θDD;
3)设置训练的迭代次数,在每次迭代中:
3.1从{I1,I2,...,In}和{D1,D2,...,Dn}中采样k个图像-深度图图像对{(i,d)(1),...,(i,d)(k)}组成一个用于训练的子集和;
3.2从{In+1,...,In+m}中采样k张图像{i'(1),...,i'(k)}组成一个用于训练的子集和;
3.3用SGD更新图像-深度图图像对判别器网络(PD)参数:
3.4用SGD更新深度图判别器网络(DD)参数:
3.5从{In+1,...,In+m}中采样k张图像{i”(1),...,i”(k)}组成一个用于训练的子集和;
3.6用SGD更生成器网络(G)参数:
所述测试阶段的具体步骤为:
1)导入训练好的生成器网络权重;
2)将一张图像作为输入传递给生成器网络;
3)使用步骤1)中导入的网络权重对输入图像进行计算,网络输出输入图像中每个像素点对应的深度值信息。
以下给出具体实施例。
一、基本概念
(1)深度估计
深度估计是指对图像中像素点距离相机的距离进行估计。目前获取深度值主要有两种方式,一种基于硬件设备的主动感知,一种基于视觉线索的被动感知。常见的主动感知包括使用Kinect和LiDAR,前者有效范围为0~10m,适合在室内环境下使用;后者有效范围约为0~80m,适合在室外场景下使用。主动感知的问题在于采样点稀疏且存在大量空洞。
基于视觉的深度获取包含基于多视角和单视角两种情况。前者依赖同一场景下的多张视角,通过相机运动等线索还原深度。后者则仅仅依靠单张图像提供的视觉线索,通过学习的方式来估计真实场景的深度值,是本发明关注的重点。
(2)深度学习
深度学习(也称为深度结构学习或分层学习)是基于学习数据表示形式的更广泛的机器学习方法家族的一部分,与特定于任务的算法不同。学习可以进行监督、半监督或无监督。
深度学习架构如深度神经网络,深层信念网络和递归神经网络已应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计等领域。深度学习已经产生了与人类专家相媲美甚至在某些情况下优于人类专家的结果。
(3)生成对抗网络
生成对抗模型包含两个网络,每个网络扮着不同的角色(具体来说,是两个对抗的角色)。给定一些真实的数据集合R,G代表生成器网络,其试图生成看起来十分像真实数据的假的数据。D代表判别器网络,其分别从真实的数据集合和G生成的数据中获取数据,然后给出两者的差别。可以将G理解为一个油画造假团队,这个造假团队试图用他们的输出来尽可能地匹配真实的油画,而D代表一个专家团队来试图分辨出假的油画和真的油画(不过在这个例子中,G并不能看到真实的数据,而只有D可以看到真实的数据。这些造假者就像一些盲人造假者一样)。
理想状态下,在对抗中D和G都会逐渐提高自己的造假和鉴别真假的能力,直到G已经成为一个“专家造假者”,而D处于一个已经无法区分两种分布的情况的状态。在实际实验中,生成对抗网络的提出者古德费洛展示了G可以在原始数据集上进行一种无监督学习,找出一些更加低维的表示数据的方式。
二、单目图像深度值的估计
整个单目图像深度值估计的系统,按照实现流程分为两个阶段,第一阶段用已知对应真实深度值的数据对网络进行训练获得模型,第二阶段用第一阶段获得的模型对未知图像进行深度值的估计。
2.1网络结构
如图1所示,本发明的对抗生成网络由深度估计生成器、深度图判别器和图像-深度图判别器三部分组成。其中生成器负责学习图像到深度值之间的映射关系,尽可能地让生成的深度图接近真实的深度图,让判别器难辨真假。深度图判别器负责区分真实的深度图和预测的深度图。图像-深度图判别器负责区分真实的图像-深度图像对与生成的图像-深度图图像对,通过对抗学习,指导生成器生成与RGB图像尽可能匹配的深度图。
(1)生成器结构
编码器-解码器结构在深度估计中有较好的效果。本发明的生成器也采用了编码器-解码器结构,具体分为下采样结构(编码器)、上采样结构(解码器)和特征提取结构,如图2所示。本发明在编码器与解码器间加入了特征提取结构,该结构由多个跳转连接单元组成。长时间的跳转连接能让底层特征更直接地流向更高的级别,保留尽可能多的深层信息。
具体来说,下采样结构由三个卷积单元组成,其中有两个卷积操作的步长设为2,将特征图的长与宽都缩小为原大小的四分之一(卷积单元包括卷积层、批处理归一化层和ReLU层)。接下来,下采样结构最终的特征图将通过9个ResNet块来进一步提取深层特性。除该主路径外,上采样结构中的阶段特征图也通过长跳跃连接发送至下采样阶段。最后,将特征图与长跳跃连接的特征图拼接起来,利用逐步转置卷积进行上采样,以预测最终的深度。
(2)判别器结构
本发明的图像-深度图判别器和深度图判别器的结构图如图3所示。两者的结构相似,均由五个卷积层组成,前4层之后加上了批处理归一化层和ReLU层,以获得更稳定的结果。经过该结构后,得到长宽均为原图三十二之一的特征图,代表着图像中不同的块的真假概率,对所有块的预测结果求平均,得到最终的判别器损失。图像-深度判别器与深度图判别器的区别在于,图像-深度判别器是先将预深度图与RGB图连接在一起,组成图像-深度图像对后作为输入,而深度图判别器是仅将深度图作为输入。
2.2生成对抗网络的训练
(1)收集用于训练的RGB图像集I={I1,I2,...,In,In+1,...,In+m}和前n张图像对应的深度图像集合D={D1,D2,...,Dn};
(2)根据设计的网络结构初始化生成器网络参数θG和两个判别器网络的参数θPD,θDD;
(3)设置训练的迭代次数,在每次迭代中:
(3.1)从{I1,I2,...,In}和{D1,D2,...,Dn}中采样k个图像-深度图图像对
{(i,d)(1),...,(i,d)(k)}组成一个用于训练的子集和;
(3.2)用SGD更新图像-深度图图像对判别器网络和深度图判别器网络参数:
(3.3)从中采样k张图像组成一个用于训练的子集和;
(3.4)用SGD更生成器网络(G)参数:
2.3生成对抗网络的测试
(1)导入训练好的生成器网络权重;
(2)将一张图像作为输入传递给生成器网络;
(3)使用步骤(1)中导入的网络权重对输入图像进行计算,网络输出输入图像中每个像素点对应的深度值信息。
图4为本发明在室内环境下(NYUD数据集)的效果示意图,图5为本发明在室外环境下(Kitti数据集)的效果示意图。
Claims (1)
1.一种基于对抗网络的单目深度估计系统实现方法,其特征在于包括训练阶段和测试阶段,所述训练阶段的具体步骤为:
1)收集用于训练的RGB图像集I={I1,I2,...,In,In+1,...,In+m}和前n张图像对应的深度图像集合D={D1,D2,...,Dn};
2)根据设计的网络结构初始化生成器网络参数θG和两个判别器网络的参数θPD,θDD;
3)设置训练的迭代次数,在每次迭代中:
3.1从{I1,I2,...,In}和{D1,D2,...,Dn}中采样k个图像-深度图图像对{(i,d)(1),...,(i,d)(k)}组成一个用于训练的子集和;
3.2从{In+1,...,In+m}中采样k张图像{i'(1),...,i'(k)}组成一个用于训练的子集和;
3.3用SGD更新图像-深度图图像对判别器网络(PD)参数:
3.4用SGD更新深度图判别器网络(DD)参数:
3.5从{In+1,...,In+m}中采样k张图像{i”(1),...,i”(k)}组成一个用于训练的子集和;
3.6用SGD更生成器网络(G)参数:
所述测试阶段的具体步骤为:
1)导入训练好的生成器网络权重;
2)将一张图像作为输入传递给生成器网络;
3)使用步骤1)中导入的网络权重对输入图像进行计算,网络输出输入图像中每个像素点对应的深度值信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349584.6A CN110335299B (zh) | 2019-04-28 | 2019-04-28 | 一种基于对抗网络的单目深度估计系统实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349584.6A CN110335299B (zh) | 2019-04-28 | 2019-04-28 | 一种基于对抗网络的单目深度估计系统实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335299A true CN110335299A (zh) | 2019-10-15 |
CN110335299B CN110335299B (zh) | 2021-08-13 |
Family
ID=68139885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910349584.6A Active CN110335299B (zh) | 2019-04-28 | 2019-04-28 | 一种基于对抗网络的单目深度估计系统实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335299B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819875A (zh) * | 2021-02-03 | 2021-05-18 | 苏州挚途科技有限公司 | 单目深度估计的方法、装置及电子设备 |
CN112932482A (zh) * | 2021-01-28 | 2021-06-11 | 南通帕克医用材料有限公司 | 一种基于单目相机识别的穿刺技术 |
WO2021169049A1 (zh) * | 2020-02-24 | 2021-09-02 | 大连理工大学 | 一种真实场景下玻璃检测的方法 |
US11238601B2 (en) | 2020-06-11 | 2022-02-01 | Toyota Research Institute, Inc. | Multi-scale recurrent decoder for monocular depth estimation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563995A (zh) * | 2017-08-14 | 2018-01-09 | 华南理工大学 | 一种多判别器误差反传的对抗网络方法 |
CN107590530A (zh) * | 2017-07-17 | 2018-01-16 | 华南理工大学 | 一种基于生成对抗网络的逐层更新算法 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
-
2019
- 2019-04-28 CN CN201910349584.6A patent/CN110335299B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590530A (zh) * | 2017-07-17 | 2018-01-16 | 华南理工大学 | 一种基于生成对抗网络的逐层更新算法 |
CN107563995A (zh) * | 2017-08-14 | 2018-01-09 | 华南理工大学 | 一种多判别器误差反传的对抗网络方法 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
Non-Patent Citations (1)
Title |
---|
YEVHE等: ""Semi-Supervised Deep Learning for Monocular Depth Map Prediction"", 《ARXIV》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169049A1 (zh) * | 2020-02-24 | 2021-09-02 | 大连理工大学 | 一种真实场景下玻璃检测的方法 |
US11361534B2 (en) | 2020-02-24 | 2022-06-14 | Dalian University Of Technology | Method for glass detection in real scenes |
US11238601B2 (en) | 2020-06-11 | 2022-02-01 | Toyota Research Institute, Inc. | Multi-scale recurrent decoder for monocular depth estimation |
CN112932482A (zh) * | 2021-01-28 | 2021-06-11 | 南通帕克医用材料有限公司 | 一种基于单目相机识别的穿刺技术 |
CN112819875A (zh) * | 2021-02-03 | 2021-05-18 | 苏州挚途科技有限公司 | 单目深度估计的方法、装置及电子设备 |
CN112819875B (zh) * | 2021-02-03 | 2023-12-19 | 苏州挚途科技有限公司 | 单目深度估计的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110335299B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
Saputra et al. | Learning monocular visual odometry through geometry-aware curriculum learning | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
Chen et al. | End-to-end learning of object motion estimation from retinal events for event-based object tracking | |
CN110334607B (zh) | 一种视频人体交互行为识别方法及系统 | |
CN111639580B (zh) | 一种结合特征分离模型和视角转换模型的步态识别方法 | |
CN112132197A (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN113762009B (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
CN113378649A (zh) | 身份、位置和动作识别方法、系统、电子设备及存储介质 | |
CN111563404B (zh) | 用于基于视频的人再识别的全局局部时间表示方法 | |
Zhao et al. | Application research of image recognition technology based on CNN in image location of environmental monitoring UAV | |
CN112418041A (zh) | 一种基于人脸正面化的多姿态人脸识别方法 | |
CN117095128A (zh) | 一种无先验多视角人体服饰编辑方法 | |
Zhang et al. | Fall detection in videos with trajectory-weighted deep-convolutional rank-pooling descriptor | |
CN113112583B (zh) | 基于红外热成像的3d人体重构方法 | |
CN115018999B (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
CN112766217A (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN115484410A (zh) | 基于深度学习的事件相机视频重建方法 | |
CN114638408A (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN116342776A (zh) | 三维场景解耦方法、电子设备及存储介质 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN118135660A (zh) | 一种视角缺失条件下的联合多视角信息瓶颈的跨视角步态识别方法 | |
US20240144490A1 (en) | Joint count and flow analysis for video crowd scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |