CN110246171A - 一种实时单目视频深度估计方法 - Google Patents

一种实时单目视频深度估计方法 Download PDF

Info

Publication number
CN110246171A
CN110246171A CN201910498111.2A CN201910498111A CN110246171A CN 110246171 A CN110246171 A CN 110246171A CN 201910498111 A CN201910498111 A CN 201910498111A CN 110246171 A CN110246171 A CN 110246171A
Authority
CN
China
Prior art keywords
sample
video
frame
depth
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910498111.2A
Other languages
English (en)
Other versions
CN110246171B (zh
Inventor
李映
张号逵
李静玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910498111.2A priority Critical patent/CN110246171B/zh
Publication of CN110246171A publication Critical patent/CN110246171A/zh
Application granted granted Critical
Publication of CN110246171B publication Critical patent/CN110246171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种实时单目视频深度估计方法,结合二维卷积神经网络2D‑CNN和卷积的长短时记忆网络,构建出能够同时利用空间及时序信息对单目视频数据进行实时深度估计的模型。同时利用生成对抗网络GAN来对估计得到的结果进行约束。评估精度上,与当前state‑of‑the‑art模型可比。使用开销上,模型运行速度更快,模型参数量更少,需要的计算资源更少。且本模型估计得到的结果具有很好的时间一致性,在对连续多帧进行深度估计时,得到的深度结果图变化情况与输入的RGB图变化情况一致,不会出现突变,抖动。

Description

一种实时单目视频深度估计方法
技术领域
本发明涉及一种实时地对单目视频里边每一帧的每一个像素进行深度估计的方法,属于视频处理及三维重建领域。
背景技术
深度估计,以RGB图像为输入数据,估计图像中每一个像素位置距离摄像位置的距离。根据处理的对象是多个相机对同一场景采集图像还是单目相机采集的图像可以分为,多目深度估计和单目深度估计。其中,单目深度估计更有挑战性,适用的范围也更加广泛。单目深度估计可以应用于三维建模、场景理解及深度感知等领域。
近年来,得益于深度学习技术的发展及可获取的深度估计的标注数据的增多,单目深度估计也取得了非常大的进展。但是,目前主流的单目深度估计方法都集中在单张图像的深度估计上,且通常采用的模型都是非常庞大的模型。例如当前state-of-the-art的模型,DORN,包含了150多层卷积层。使用该模型需要大量的计算资源,且速度较慢。这些问题都限制着深度估计在某些问题上的实用化。例如在自动驾驶方面,实时的进行深度估计非常重要,且驾驶过程中,提供给模型的输入数据时连续的视频数据。
因此,设计一种能够捕捉并利用时间信息,实时地对单目视频进行处理的算法是一项非常具有挑战性,但是又非常具有实用性的任务。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明结合深度学习技术,设计一种能够捕捉利用时序信息,并实时地对单目视频进行深度估计,且保持估计的深度图具有时间一致性的算法。
技术方案
一种实时单目视频深度估计方法,其特征在于步骤如下:
步骤1:数据预处理
数据预处理包括RGB视频标准化、深度图归一化和样本提取:1)以降采样的形式从RGB视频中提取多帧,统计该数据库的均值和方差,利用统计得到的均值方差对数据库中的RGB视频每一帧进行标准化操作;2)根据标注的深度视频数据的有效距离,对深度视频数据每一帧进行归一化;大于有效距离的部分舍弃掉,深度的最小值设为0;3)从标准化的RGB视频中,无重叠的提取连续多帧组成小的视频段,每一个视频段就是一个输入样本,该视频段对应的深度图构成的深度视频段就是样本对应的标签,一个输入样本和其对应的标签构成一个样本;
步骤2:划分训练集验证集
从经过预处理的样本集中,选取少量样本作为验证集,剩余的样本作为训练集;
步骤3:构建网络模型
构建两个模型,分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器:所述的生成器包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分;所述的判别器是一个三维卷积构成的3D-CNN;
所述的2D-CNN包括三部分:编码器、多尺寸特征融合、解码器,其中编码器包含一个宽度为64、卷积核为3*3的卷积层和四个block,这四个block的宽度依次为64、128、256、512;多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样,采样的比例依次为2倍、4倍、8倍和16倍;上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层,得到融合特征图;解码器包含卷积核为3*3的四个反卷积层,每一个反卷积层包含一个双线性插值的2倍上采样层和一个卷积层,四个反卷积层的宽度依次为512、256、128、64,解码器以编码器的输出特征图为输入;最终,将多尺度融合特征和解码器的输出按通道合并,得到该2D-CNN结构提取到的每一帧图像的空间特征;以{x1,x2,…,xn}表示n帧连续的RGB输入图片,以{g1,g2,…,gn}表示这n帧RGB图片对应的标注的深度图;通过2D-CNN提取空间特征后,会得到对应的n帧空间特征{f1,f2,…,fn};
所述的CLSTM以n帧空间特征{f1,f2,…,fn}为输入,给出n帧深度估计结果{d1,d2,…,dn};具体计算过程如下:
式中,σ及tanh分别表示sigmoid函数和双曲正切函数,*表示卷积运算,×表示矩阵乘法运算;Wf,Wi,WC,Wo和bf,bi,bC,bo表示对应卷积层的卷积核和偏执;Dt-1是一个由卷积层,将第t-1帧的空间特征的通道数从128维压缩到8维,Rt是一个小规模的refinenet,包含两层卷积层,这两层卷积层的输出宽度分别为64和1;CLSTM结构中,其余部分均是由一个输出宽度为8的卷积层构成,卷积核的尺寸为3;
将上述的2D-CNN和CLSTM结合,构成了生成器,用2D-CNN提取空间特征,然后利用CLSTM提取时序信息,最后给出连续帧的深度估计结果;
所述的判别器是一个3D-CNN,包括五部分:第一部分由卷积核尺寸为5,步长为2,宽度为32的三维卷积、batch normalization层、ReLU激励层及窗口尺寸为3,步长为2的最大值池化层构成;紧接着的三部分结构类似,不过卷积核的尺寸改为3,宽度依次修改为64、128和256,判别器最后一部分由一个三维全局池化层和一个全连接层构成;
判别器的输入是连续的,多帧的四通道输入;判别器的输入分为正样本和负样本,正样本是将输入的RGB连续帧与其对应的标注的深度图沿通道合并起来形成四通道的样本,负样本是将输入的RGB连续帧与其对应的由生成器生成的深度图沿通道合并起来形成四通道的样本;判别器的输出是一个判断输入样本是正样本还是负样本的二分类输出;
步骤4:对抗训练
训练过程以迭代的形式进行,首先,输入样本中的RGB视频段X给生成器,然后利用生成器生成对应的深度估计视频段D,将X和D按照通道合并得到四通道的负样本,将X和其对应的标注深度视频段G按照通道合并得到四通道的正样本;利用合并得到的正样本及负样本训练判别器;正样本的标签设为真,负样本的标签设为假,沿着交插熵最小的方向优化判别器的参数;然后以G为教师信号,计算G和D之间的误差Lspatial,将负样本的标签设为真,重新将负样本输入到判别器里边计算交插熵Ltemporal;最后沿Lspatial+αLtemporal最小的方向优化生成器的参数,其中α为一权重;Lspatial的计算公式为:
Lspatial=ln(‖G-D‖1+1.0),(2)
式中,ln表示log函数,‖·‖1表示一范数;
对抗训练过程中,生成器和判别器均采用Adam算法进行更新,在训练集上训练参数,在验证集上测试效果,训练到在验证集上精度达到饱和为止;
步骤5:实用
利用训练好的生成器对需要处理的视频进行处理,估计每一帧,每一个像素的深度。
步骤1中的多帧为3-8帧。
步骤2中的少量为5%-10%。
步骤4中α设为0.1。
步骤4中训练时初始学习率分别设为0.01,0.0001,动量项均设为0.9。
有益效果
本发明提出的一种实时单目视频深度估计方法,结合2D-CNN模型和CLSTM模型,发挥各个模型的优点,构建出了能够有效利用时序信息,实时地完成单目视频深度估计的模型。跟现有的方法相比本发明重的模型能够产生可比较的结果。评估精度上,与当前state-of-the-art模型可比。使用开销上,模型运行速度更快,模型参数量更少,需要的计算资源更少。且本模型估计得到的结果具有很好的时间一致性。这里的时间一致性指的是,在对连续多帧进行深度估计时,得到的深度结果图变化情况与输入的RGB图变化情况一致,不会出现突变,抖动。
本发明中所提出的模型在11GB显卡GTX1080Ti上实测能够达到每秒处理174帧304*228分辨率的RGB视频。极大的促进了视频深度估计实用化的发展。
附图说明
图1 2D-CNN
图2 CLSTM
图3生成器
图4判别器
图5算法流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明的技术方案是结合二维卷积神经网络(2dimensional convolutionalneural network,2D-CNN)和卷积的长短时记忆网络(convolutional long short-termmemory,CLSTM),构建出能够同时利用空间及时序信息对单目视频数据进行实时深深度估计的模型。同时利用生成对抗网络(generative adversarial network,GAN)来对对估计得到的结果进行约束,使其满足时间一致性。
本技术方案的具体措施如下:
步骤1:数据预处理。数据预处理包括RGB视频标准化,深度图归一化和样本提取。
步骤2:划分训练集验证集。提取少量样本作为验证集,剩余的所有样本作为训练集。
步骤3:构建网络模型。本发明中需要构建两个模型,分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器。生成器主要包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分。判别器是一个三维卷积构成的3D-CNN。
步骤4:对抗训练。迭代的训练优化生成器和判别器,让两个模型互相竞争,直到生成器收敛彻底。
步骤5:实用。利用训练好的生成器对需要处理的视频进行处理,估计每一帧,每一个像素的深度。
具体如下:
步骤1:数据预处理。对标注数据进行预处理,这里的标注数据指的是多个视频段,视频段的每一帧都有对应的深度图。为便于区分,下文中,视频片段称为RGB视频数据,对应的深度图称为深度视频。数据预处理包含三部分内容:1)对RGB视频数据进行标准化,并从标准化之后的结果里边提取样本数据。标准化的具体操作是,以降采样的形式从RGB视频中提取多帧(1000帧以上,PC机内存足够大的话,可以统计整个视频数据库所有帧),统计该数据库的均值和方差,之后利用统计得到的均值方差对数据库中的RGB视频每一帧进行标准化操作;2)根据标注的深度视频数据的有效距离,对深度视频数据每一帧进行归一化。大于有效距离的部分舍弃掉,深度的最小值设为0;3)样本提取。从标准化的RGB视频中,无重叠的提取连续多帧组成小的视频段(3-8帧),每一个视频段就是一个输入样本,该视频段对应的深度图构成的深度视频段就是样本对应的标签。一个输入样本和其对应的标签构成一个样本;
步骤2:划分训练集验证集。从经过预处理的样本集中,选取5%-10%的样本作为验证集,剩余的样本作为训练集。
步骤3:构建网络模型。本发明中需要构建两个模型,分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器。生成器主要包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分,具体结构参照图3。判别器是一个三维卷积构成的3D-CNN。
2D-CNN的结构参照图1.该图中,Conv表示卷积层,Dconv表示反卷积层。Conv和Dconv采用的卷积核均为3*3的卷积核。每一个Dconv包含一个双线性插值的2倍上采样层和一个卷积层。2D-CNN由三部分构成:编码器、多尺寸特征融合、解码器。编码器包含一个宽度为64的卷积层,四个block(表示bottleneck结构),这四个block的宽度依次为64,128,256,512.具体结构请参照ResNet-18.多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样,采样的比例依次为2倍,4倍,8倍和16倍。上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层Conv2,得到融合特征图。解码器包含四个反卷积层,从Dconv1到Dconv4,宽度依次为512,256,128,64.解码器以编码器的输出特征图为输入。最终,将多尺度融合特征和解码器的输出按通道合并,得到该2D-CNN结构提取到的每一帧图像的空间特征。以{x1,x2,…,xn}表示n帧连续的RGB输入图片,以{g1,g2,…,gn}表示这n帧RGB图片对应的标注的深度图。通过2D-CNN提取空间特征后,会得到对应的n帧空间特征{f1,f2,…,fn}。
CLSTM的结构参照图2.图中σ及tanh分别表示sigmoid函数和双曲正切函数。本发明中所设计的CLSTM结构运算流程主要是:将第t-1帧的空间特征沿通道压缩,之后与第t帧的空间特征沿通道合并,将合并后的信息输入给遗忘门,记忆门等结构。利用遗忘门,记忆门的输出去更新t-1时刻记忆模块的内容得到t时刻记忆模块的内容。最后,将t时刻记忆模块的内容与t-1帧及t帧的空间特征结合,通过一个小规模的refinenet得到第t帧的深度估计结果。CLSTM以n帧空间特征{f1,f2,…,fn}为输入,给出n帧深度估计结果{d1,d2,…,dn}。具体计算过程如下:
公式(1)中,*表示卷积运算,×表示矩阵乘法运算。Wf,Wi,WC,Wo和bf,bi,bC,bo表示对应卷积层的卷积核和偏执。Dt-1是一个由卷积层,将第t-1帧的空间特征的通道数从128维压缩到8维。Rt是一个小规模的refinenet,包含两层卷积层,这两层卷积层的输出宽度分别为64和1。CLSTM结构中,其余部分均是由一个输出宽度为8的卷积层构成,卷积核的尺寸为3。
2D-CNN和CLSTM结合,构成了生成器。具体结构参照图3。用2D-CNN提取空间特征,然后利用CLSTM提取时序信息,最后给出连续帧的深度估计结果。
判别器是一个3D-CNN,具体结构参照图4。判别器的输入是连续的,多帧的四通道输入。判别器的输入可以分为正样本和负样本。正样本是将输入的RGB连续帧与其对应的标注的深度图沿通道合并起来形成四通道的样本。负样本是将输入的RGB连续帧与其对应的由生成器生成的深度图沿通道合并起来形成四通道的样本。判别器的输出是一个判断输入样本是正样本还是负样本的二分类输出。判别器主要包含五部分,第一部分由卷积核尺寸为5,步长为2,宽度为32的三维卷积,batch normalization层,ReLU激励层及窗口尺寸为3,步长为2的最大值池化层构成。紧接着的三部分结构类似,不过卷积核的尺寸改为3,宽度依次修改为64,128和256。判别器最后一部分由一个三维全局池化层和一个全连接层构成。
步骤4:对抗训练。迭代的训练优化生成器和判别器,让两个模型互相竞争,直到生成器彻底收敛。训练过程以迭代的形式进行,首先,输入样本中的RGB视频段X给生成器,然后利用生成器生成对应的深度估计视频段D。将X和D按照通道合并得到四通道的负样本,将X和其对应的标注深度视频段G按照通道合并得到四通道的正样本。利用合并得到的正样本及负样本训练判别器。正样本的标签设为真,负样本的标签设为假,沿着交插熵最小的方向优化判别器的参数。然后以G为教师信号,计算G和D之间的误差Lspatial。将负样本的标签设为真,重新将负样本输入到判别器里边计算交插熵Ltemporal。最后沿Lspatial+αLtemporal最小的方向优化生成器的参数,其中α为一权重,在本发明中设为0.1。Lspatial的计算公式为:
Lspatial=ln(‖G-D‖1+1.0),(2)
公式(2)中,ln表示log函数,‖·‖1表示一范数。对抗训练过程中,生成器和判别器均采用Adam算法进行更新,初始学习率分别设为0.01,0.0001,动量项均设为0.9。在训练集上训练参数,在验证集上测试效果,训练到在验证集上精度达到饱和为止。
步骤5:实用。利用训练好的生成器对需要处理的视频进行处理,估计每一帧,每一个像素的深度。

Claims (5)

1.一种实时单目视频深度估计方法,其特征在于步骤如下:
步骤1:数据预处理
数据预处理包括RGB视频标准化、深度图归一化和样本提取:1)以降采样的形式从RGB视频中提取多帧,统计该数据库的均值和方差,利用统计得到的均值方差对数据库中的RGB视频每一帧进行标准化操作;2)根据标注的深度视频数据的有效距离,对深度视频数据每一帧进行归一化;大于有效距离的部分舍弃掉,深度的最小值设为0;3)从标准化的RGB视频中,无重叠的提取连续多帧组成小的视频段,每一个视频段就是一个输入样本,该视频段对应的深度图构成的深度视频段就是样本对应的标签,一个输入样本和其对应的标签构成一个样本;
步骤2:划分训练集验证集
从经过预处理的样本集中,选取少量样本作为验证集,剩余的样本作为训练集;
步骤3:构建网络模型
构建两个模型,分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器:所述的生成器包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分;所述的判别器是一个三维卷积构成的3D-CNN;
所述的2D-CNN包括三部分:编码器、多尺寸特征融合、解码器,其中编码器包含一个宽度为64、卷积核为3*3的卷积层和四个block,这四个block的宽度依次为64、128、256、512;多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样,采样的比例依次为2倍、4倍、8倍和16倍;上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层,得到融合特征图;解码器包含卷积核为3*3的四个反卷积层,每一个反卷积层包含一个双线性插值的2倍上采样层和一个卷积层,四个反卷积层的宽度依次为512、256、128、64,解码器以编码器的输出特征图为输入;最终,将多尺度融合特征和解码器的输出按通道合并,得到该2D-CNN结构提取到的每一帧图像的空间特征;以{x1,x2,…,xn}表示n帧连续的RGB输入图片,以{g1,g2,…,gn}表示这n帧RGB图片对应的标注的深度图;通过2D-CNN提取空间特征后,会得到对应的n帧空间特征{f1,f2,…,fn};
所述的CLSTM以n帧空间特征{f1,f2,…,fn}为输入,给出n帧深度估计结果{d1,d2,…,dn};具体计算过程如下:
式中,σ及tanh分别表示sigmoid函数和双曲正切函数,*表示卷积运算,×表示矩阵乘法运算;Wf,Wi,WC,Wo和bf,bi,bC,bo表示对应卷积层的卷积核和偏执;Dt-1是一个由卷积层,将第t-1帧的空间特征的通道数从128维压缩到8维,Rt是一个小规模的refinenet,包含两层卷积层,这两层卷积层的输出宽度分别为64和1;CLSTM结构中,其余部分均是由一个输出宽度为8的卷积层构成,卷积核的尺寸为3;
将上述的2D-CNN和CLSTM结合,构成了生成器,用2D-CNN提取空间特征,然后利用CLSTM提取时序信息,最后给出连续帧的深度估计结果;
所述的判别器是一个3D-CNN,包括五部分:第一部分由卷积核尺寸为5,步长为2,宽度为32的三维卷积、batch normalization层、ReLU激励层及窗口尺寸为3,步长为2的最大值池化层构成;紧接着的三部分结构类似,不过卷积核的尺寸改为3,宽度依次修改为64、128和256,判别器最后一部分由一个三维全局池化层和一个全连接层构成;
判别器的输入是连续的,多帧的四通道输入;判别器的输入分为正样本和负样本,正样本是将输入的RGB连续帧与其对应的标注的深度图沿通道合并起来形成四通道的样本,负样本是将输入的RGB连续帧与其对应的由生成器生成的深度图沿通道合并起来形成四通道的样本;判别器的输出是一个判断输入样本是正样本还是负样本的二分类输出;
步骤4:对抗训练
训练过程以迭代的形式进行,首先,输入样本中的RGB视频段X给生成器,然后利用生成器生成对应的深度估计视频段D,将X和D按照通道合并得到四通道的负样本,将X和其对应的标注深度视频段G按照通道合并得到四通道的正样本;利用合并得到的正样本及负样本训练判别器;正样本的标签设为真,负样本的标签设为假,沿着交插熵最小的方向优化判别器的参数;然后以G为教师信号,计算G和D之间的误差Lspatial,将负样本的标签设为真,重新将负样本输入到判别器里边计算交插熵Ltemporal;最后沿Lspatial+αLtemporal最小的方向优化生成器的参数,其中α为一权重;Lspatial的计算公式为:
Lspatial=ln(||G-D||1+1.0), (2)
式中,ln表示log函数,||·||1表示一范数;
对抗训练过程中,生成器和判别器均采用Adam算法进行更新,在训练集上训练参数,在验证集上测试效果,训练到在验证集上精度达到饱和为止;
步骤5:实用
利用训练好的生成器对需要处理的视频进行处理,估计每一帧,每一个像素的深度。
2.根据权利要求1所述的一种实时单目视频深度估计方法,其特征在于步骤1中的多帧为3-8帧。
3.根据权利要求1所述的一种实时单目视频深度估计方法,其特征在于步骤2中的少量为5%-10%。
4.根据权利要求1所述的一种实时单目视频深度估计方法,其特征在于步骤4中α设为0.1。
5.根据权利要求1所述的一种实时单目视频深度估计方法,其特征在于步骤4中训练时初始学习率分别设为0.01,0.0001,动量项均设为0.9。
CN201910498111.2A 2019-06-10 2019-06-10 一种实时单目视频深度估计方法 Active CN110246171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910498111.2A CN110246171B (zh) 2019-06-10 2019-06-10 一种实时单目视频深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910498111.2A CN110246171B (zh) 2019-06-10 2019-06-10 一种实时单目视频深度估计方法

Publications (2)

Publication Number Publication Date
CN110246171A true CN110246171A (zh) 2019-09-17
CN110246171B CN110246171B (zh) 2022-07-19

Family

ID=67886449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910498111.2A Active CN110246171B (zh) 2019-06-10 2019-06-10 一种实时单目视频深度估计方法

Country Status (1)

Country Link
CN (1) CN110246171B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852199A (zh) * 2019-10-28 2020-02-28 中国石化销售股份有限公司华南分公司 一种基于双帧编码解码模型的前景提取方法
CN112308156A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN113052203A (zh) * 2021-02-09 2021-06-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置
CN113192322A (zh) * 2021-03-19 2021-07-30 东北大学 一种基于云边协同的高速公路交通流量计数方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN108629800A (zh) * 2017-03-20 2018-10-09 北京三星通信技术研究有限公司 平面确定方法及增强现实显示信息的显示方法、相应装置
CN109166144A (zh) * 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置
CN109670411A (zh) * 2018-11-30 2019-04-23 武汉理工大学 基于生成对抗网络的内河船舶点云数据深度图像处理方法和系统
US20190130212A1 (en) * 2017-10-30 2019-05-02 Nec Laboratories America, Inc. Deep Network Embedding with Adversarial Regularization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629800A (zh) * 2017-03-20 2018-10-09 北京三星通信技术研究有限公司 平面确定方法及增强现实显示信息的显示方法、相应装置
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
US20190130212A1 (en) * 2017-10-30 2019-05-02 Nec Laboratories America, Inc. Deep Network Embedding with Adversarial Regularization
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109166144A (zh) * 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN109670411A (zh) * 2018-11-30 2019-04-23 武汉理工大学 基于生成对抗网络的内河船舶点云数据深度图像处理方法和系统
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JUNJIE HU ET AL: "Revisiting Single Image Depth Estimation:Toward Higher Resolution Maps With Accurate Object Boundaries", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
XINGJIAN SHI ET AL: "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting", 《ARXIV:1506.04214V1》 *
XINLONG WANG ET AL: "Adversarial Generation of Training Examples:Applications to Moving Vehicle License Plate Recognition", 《ARXIV:1707.03124V3》 *
ZHAOLIANG LUN ET AL: "3D Shape Reconstruction from Sketches via Multi-view Convolutional Networks", 《2017 INTERNATIONAL CONFERENCE ON 3D VISION (3DV)》 *
ZHIKANG WANG ET AL: "Multi-scale Spatial-temporal Network for Person Re-identification", 《ICASSP》 *
蔡晓龙: "基于DCGAN算法的图像生成技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
高媛等: "基于深度残差生成对抗网络的医学影像超分辨率算法", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852199A (zh) * 2019-10-28 2020-02-28 中国石化销售股份有限公司华南分公司 一种基于双帧编码解码模型的前景提取方法
CN112308156A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN112308156B (zh) * 2020-11-05 2022-05-03 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN113052203A (zh) * 2021-02-09 2021-06-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置
CN113052203B (zh) * 2021-02-09 2022-01-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向多种类数据的异常检测方法及装置
CN113192322A (zh) * 2021-03-19 2021-07-30 东北大学 一种基于云边协同的高速公路交通流量计数方法

Also Published As

Publication number Publication date
CN110246171B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN113706714B (zh) 基于深度图像和神经辐射场的新视角合成方法
CN110246171A (zh) 一种实时单目视频深度估计方法
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
CN107204010B (zh) 一种单目图像深度估计方法与系统
CN110458939B (zh) 基于视角生成的室内场景建模方法
CN106780569A (zh) 一种人体姿态估计行为分析方法
CN110889343B (zh) 基于注意力型深度神经网络的人群密度估计方法及装置
CN104268594B (zh) 一种视频异常事件检测方法及装置
CN110163246A (zh) 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110111366A (zh) 一种基于多级损失量的端到端光流估计方法
CN108710831A (zh) 一种基于机器视觉的小数据集人脸识别算法
CN110188754A (zh) 图像分割方法和装置、模型训练方法和装置
CN108319932A (zh) 一种基于生成式对抗网络的多图像人脸对齐的方法及装置
CN108681774A (zh) 基于生成对抗网络负样本增强的人体目标跟踪方法
CN109191369A (zh) 2d图片集转3d模型的方法、存储介质和装置
CN107481279A (zh) 一种单目视频深度图计算方法
CN110222306A (zh) 一种适用于内孤立波试验流场分析及重构的改进模态分解方法
CN104869387A (zh) 基于光流法的双目图像最大视差获取方法
CN109800770A (zh) 一种实时目标检测的方法、系统及装置
CN109214366A (zh) 局部目标重识别方法、装置及系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN109300151A (zh) 图像处理方法和装置、电子设备
CN110163196A (zh) 显著特征检测方法和装置
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant