CN106780543A - 一种基于卷积神经网络的双框架估计深度和运动方法 - Google Patents

一种基于卷积神经网络的双框架估计深度和运动方法 Download PDF

Info

Publication number
CN106780543A
CN106780543A CN201710025984.2A CN201710025984A CN106780543A CN 106780543 A CN106780543 A CN 106780543A CN 201710025984 A CN201710025984 A CN 201710025984A CN 106780543 A CN106780543 A CN 106780543A
Authority
CN
China
Prior art keywords
network
depth
image
input
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710025984.2A
Other languages
English (en)
Other versions
CN106780543B (zh
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710025984.2A priority Critical patent/CN106780543B/zh
Publication of CN106780543A publication Critical patent/CN106780543A/zh
Application granted granted Critical
Publication of CN106780543B publication Critical patent/CN106780543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明中提出的一种基于卷积神经网络的图像像素分类方法,其主要内容包括:图像输入、自助网络处理、迭代处理、图像细化、获得估计结果,其过程为,采用卷积网络估计深度和相机运动,它包含三个阶段:从场景数据集采样图像对并丢弃具有高光一致性误差的图像对;接下来,预处理后的图像对输入自助网络中分别计算光流、深度和相机运动;然后,经由迭代网络多次迭代反复改进现有的估计结果;最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显优于传统的运动结构,结果更准确和更鲁棒;与从单个图像估计深度的网络不同,本网络学习匹配的概念,可以利用运动视差,从而处理新类型的场景,并且允许估计运动。

Description

一种基于卷积神经网络的双框架估计深度和运动方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于卷积神经网络的双框架估计深度和运动方法。
背景技术
随着科技技术迅速发展,在深度学习研究领域,运动结构是计算机视觉中的长期任务。代表现有技术的系统是由几个连续处理步骤组成的精心设计的管线,这些系统具有某些固有的局限性。在开始估计相机运动之前,通常先通过稠密一致搜索来推断场景的结构,相机运动的不正确估计导致错误的深度预测。此外,根据关键点检测和描述符匹配计算的稀疏一致来估计相机运动的过程易于出现异常,并且在非纹理区域中不起作用,而且所有的运动结构方法不适应于小型相机的情况。而如果采用基于卷积神经网络的双框架估计深度和运动方法,则可以从一个无约束图像对联合估计深度和相机运动,还可以应用于机器人视觉导航、地图生成、航空勘测、目标识别以及计算机图像学中的虚拟现实等领域。
本发明提出了一种基于卷积神经网络的双框架估计深度和运动方法,它采用端到端的卷积网络估计深度和相机运动,它包含三个阶段:从场景数据集采样图像对并丢弃具有高光一致性误差的图像对;接下来,预处理后的图像对输入自助网络中第一编码器-解码器网络和第二编码器-解码器网络中分别计算光流、深度和相机运动;然后,经由迭代网络多次迭代反复改进现有的估计结果;最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显由于传统的双框架运动结构,结果更准确和更鲁棒,因为它是端对端训练的,并且学习从X个线索集成其他形状;与从单个图像估计深度的网络不同,本网络学习匹配的概念,可以利用运动视差,从而处理新类型的场景,并且允许估计运动。
发明内容
针对深度和相机运动估计不准确和适用范围不广泛的问题,本发明的目的在于提供一种基于卷积神经网络的双框架估计深度和运动方法。
为解决上述问题,本发明提供一种基于卷积神经网络的双框架估计深度和运动方法,其主要内容包括:
(一)图像输入;
(二)自助网络处理;
(三)迭代处理;
(四)图像细化;
(五)获得估计结果。
其中,一种基于卷积神经网络的双框架估计深度和运动方法,包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动;该架构由多个堆叠的编码器-解码器网络组成,包括自助网络、迭代网络和细化网络,核心部分是能够改进自身预测的迭代网络;网络不仅估计深度和运动,而且还估计表面法线、图像之间的光流以及匹配的置信度。
其中,所述的图像输入,选取有深度和相机姿势的室内场景图像作为场景数据集,包括从卡通到写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
其中,所述的自助网络处理,自助网络获取图像对作为输入,并输出初始深度和运动估计;由编码器-解码器网络对组成,其中第一个计算光流,而第二个计算深度和相机运动。
进一步地,所述的第一编码器-解码器网络,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器允许使用空间大的滤波器,同时保持参数的数量和运行时间可管理,在增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
进一步地,所述的第二编码器-解码器网络,将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入;基于这些输入,它估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,该架构与第一编码器-解码器网络相同。
其中,所述的迭代处理,该编码器-解码器对的架构与自助网络相同,但它需要额外的输入;训练迭代网络以改进现有的深度、法线和运动估计;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到第二编码器-解码器中。
进一步地,所述的训练优化,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动;与通过时间反向传播相比,这节省了大量的内存,并允许训练一个更大的网络和更多的迭代。
其中,所述的图像细化,通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出高分辨率图像对(256×192)。
其中,所述的图像细化,采用由θ3参数化的深度残差卷积神经网络作为细化子网;在训练期间,细化子网的输入图像没有重新调整为1024×1024,仍是512×512的分辨率;细化子网删除图像的局部像素化伪影,并进一步细化结果,最后获得最具视觉吸引力的高分辨率图像
进一步地,所述的获取估计结果,该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果;获取结果之前必须参数化深度和运动:用表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得‖t‖=1;这样,该网络学习预测单位标准平移向量;
网络估计逆深度ξ=1/Z,而不是深度Z;逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
附图说明
图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的系统流程图。
图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。
图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。
图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的系统流程图。主要包括图像输入;自助网络处理;迭代处理;图像细化;获得估计结果。
其中,所述的图像输入,选取有深度和相机姿势的室内场景图像作为场景数据集,包括从卡通到写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
其中,所述的自助网络处理,自助网络获取图像对作为输入,并输出初始深度和运动估计;由编码器-解码器网络对组成,其中第一个计算光流,而第二个计算深度和相机运动。
进一步地,所述的第一编码器-解码器网络,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器允许使用空间大的滤波器,同时保持参数的数量和运行时间可管理,在增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
进一步地,所述的第二编码器-解码器网络,将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入;基于这些输入,它估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,该架构与第一编码器-解码器网络相同。
其中,所述的迭代处理,该编码器-解码器对的架构与自助网络相同,但它需要额外的输入;训练迭代网络以改进现有的深度、法线和运动估计;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到第二编码器-解码器中。
进一步地,所述的训练优化,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动;与通过时间反向传播相比,这节省了大量的内存,并允许训练一个更大的网络和更多的迭代。
其中,所述的图像细化,通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出高分辨率图像对(256×192)。
其中,所述的图像细化,采用由θ3参数化的深度残差卷积神经网络作为细化子网;在训练期间,细化子网的输入图像没有重新调整为1024×1024,仍是512×512的分辨率;细化子网删除图像的局部像素化伪影,并进一步细化结果,最后获得最具视觉吸引力的高分辨率图像
进一步地,所述的获取估计结果,该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果;获取结果之前必须参数化深度和运动:用表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得‖t‖=1;这样,该网络学习预测单位标准平移向量;
网络估计逆深度ξ=1/Z,而不是深度Z;逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。该架构是解决不同任务的编码器-解码器网络链,采用图像对作为输入,预测第一图像的深度图和第二图像相机的相对姿态。其包括三个主要部分:自助网络,迭代网络和细化网络。前两个部分是编码器解码器网络对,其中第一个计算光流,而第二个计算深度和相机运动;递归地应用迭代网络以连续地改进先前迭代的估计。最后一个部分是单个编码器-解码器网络,它生成最终上采样和细化的深度图。
图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。具有灰色字体的输入仅可用于迭代网络。第一编码器-解码器从图像对和先前的估计预测光流和其置信度。第二编码器-解码器预测深度图和表面法线。附加到编码器的完全连接层的网络估计相机运动r,t和深度比例因子s。比例因子s关联深度值与相机运动。
图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。选取有深度和相机姿势的室内场景图像作为场景数据集,包括图中第一行的现实室内场景和图中第二行的卡通形象的室内场景这两类不同的场景图像;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于卷积神经网络的双框架估计深度和运动方法,其特征在于,主要包括图像输入(一);自助网络处理(二);迭代处理(三);图像细化(四);获取估计结果(五)。
2.基于权利要求书1所述的一种基于卷积神经网络的双框架估计深度和运动方法,其特征在于,包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动;该架构由多个堆叠的编码器-解码器网络组成,包括自助网络、迭代网络和细化网络,核心部分是能够改进自身预测的迭代网络;网络不仅估计深度和运动,而且还估计表面法线、图像之间的光流以及匹配的置信度。
3.基于权利要求书1所述的图像输入(一),其特征在于,选取有深度和相机姿势的室内场景图像作为场景数据集,包括从卡通到写实的多种不同场景;从数据集中采样图像对时,自动丢弃具有高光一致性误差的图像对,并分割数据集,使得相同的场景不会同时出现在训练集和测试集中。
4.基于权利要求书1所述的自助网络处理(二),其特征在于,自助网络获取图像对作为输入,并输出初始深度和运动估计;由编码器-解码器网络对组成,其中第一个计算光流,而第二个计算深度和相机运动。
5.基于权利要求书4所述的第一编码器-解码器网络,其特征在于,编码器由在y和x方向上具有一维滤波器的卷积层对组成;一维滤波器允许使用空间大的滤波器,同时保持参数的数量和运行时间可管理,在增加通道数的同时以2的步幅逐渐减小空间分辨率;解码器部分通过一系列向上卷积层从编码器的表示产生光流估计,该层随后是两个步幅为2的卷积层,它输出光流场的两个分量和它们的置信度的估计。
6.基于权利要求书4所述的第二编码器-解码器网络,其特征在于,将光流、其置信度,图像对以及被估计的流场扭曲的第二图像作为输入;基于这些输入,它估计深度、表面法线和相机运动;除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外,该架构与第一编码器-解码器网络相同。
7.基于权利要求书1所述的迭代处理(三),其特征在于,该编码器-解码器对的架构与自助网络相同,但它需要额外的输入;训练迭代网络以改进现有的深度、法线和运动估计;将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场,并将其与其它输入一起反馈到第一编码器-解码器中;同样,使用先前的相机运动预测将光流转换为深度图,并将其与光流一起反馈到第二编码器-解码器中。
8.基于权利要求书7所述的训练迭代,其特征在于,在训练期间,通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代;与展开不同,没有通过迭代的梯度反向传播,而是每次迭代的梯度由定义的网络输出的损失来描述:光流,深度,法线和相机运动;与通过时间反向传播相比,这节省了大量的内存,并允许训练一个更大的网络和更多的迭代。
9.基于权利要求书1所述的图像细化(四),其特征在于,通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入,细化网络将预测上调至全输入图像分辨率;它获得全分辨率输入对和最近邻上采样深度和法线场作为输入,输出高分辨率图像对(256×192)。
10.基于权利要求书1所述的获得估计结果(五),其特征在于,该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果;获取结果之前必须参数化深度和运动:用表示第二相机的相对姿态;旋转r=θv是具有角度θ和轴线v的角度轴表示,平移t在笛卡尔坐标中给出;
来自具有未知相机运动的图像的场景的重建可以仅按尺度确定,通过归一化平移和深度值来解决尺度模糊问题,使得‖t‖=1;这样,该网络学习预测单位标准平移向量;
网络估计逆深度而不是深度逆深度允许表示无穷远处的点,并且说明随着距离增加,点的局部不确定性也随之增加;为了匹配单元平移,网络预测标量缩放因子s,其用于获得最终深度值sξ。
CN201710025984.2A 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法 Active CN106780543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710025984.2A CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710025984.2A CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Publications (2)

Publication Number Publication Date
CN106780543A true CN106780543A (zh) 2017-05-31
CN106780543B CN106780543B (zh) 2019-06-28

Family

ID=58946601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025984.2A Active CN106780543B (zh) 2017-01-13 2017-01-13 一种基于卷积神经网络的双框架估计深度和运动方法

Country Status (1)

Country Link
CN (1) CN106780543B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527358A (zh) * 2017-08-23 2017-12-29 北京图森未来科技有限公司 一种稠密光流估计方法及装置
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN108491763A (zh) * 2018-03-01 2018-09-04 北京市商汤科技开发有限公司 三维场景识别网络的无监督训练方法、装置及存储介质
CN108615244A (zh) * 2018-03-27 2018-10-02 中国地质大学(武汉) 一种基于cnn和深度滤波器的图像深度估计方法及系统
CN108648216A (zh) * 2018-04-19 2018-10-12 长沙学院 一种基于光流与深度学习的视觉里程计实现方法和系统
CN108764347A (zh) * 2018-05-30 2018-11-06 大连理工大学 基于卷积神经网络的地球仪国家图像识别方法
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法
CN109754417A (zh) * 2017-11-03 2019-05-14 百度(美国)有限责任公司 从图像中无监督学习几何结构的系统与方法
CN109919874A (zh) * 2019-03-07 2019-06-21 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN110335228A (zh) * 2018-03-30 2019-10-15 杭州海康威视数字技术股份有限公司 一种图像视差的确定方法、装置及系统
CN110740308A (zh) * 2018-07-19 2020-01-31 陈良基 时间一致可靠度传递系统
CN111204346A (zh) * 2018-11-05 2020-05-29 通用汽车环球科技运作有限责任公司 用于自动车辆的控制命令的端对端学习的方法及系统
CN111316123A (zh) * 2017-11-03 2020-06-19 谷歌有限责任公司 单视图深度预测的光圈监督
CN111414975A (zh) * 2020-04-05 2020-07-14 北京工业大学 一种基于移动摄像机和神经网络的运动矢量预测方法
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN113822201A (zh) * 2021-09-24 2021-12-21 大连海事大学 基于流场速度分量时程的水下物体外形识别的深度学习方法
CN114485417A (zh) * 2022-01-07 2022-05-13 哈尔滨工业大学 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090324010A1 (en) * 2008-06-26 2009-12-31 Billy Hou Neural network-controlled automatic tracking and recognizing system and method
CN104899561A (zh) * 2015-05-27 2015-09-09 华南理工大学 一种并行化的人体行为识别方法
CN105139401A (zh) * 2015-08-31 2015-12-09 山东中金融仕文化科技股份有限公司 一种深度图中深度的可信度的评估方法
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN105868797A (zh) * 2015-01-22 2016-08-17 深圳市腾讯计算机系统有限公司 网络参数训练方法、景物类型识别方法及装置
CN106203354A (zh) * 2016-07-14 2016-12-07 南京信息工程大学 基于混合深度结构的场景识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090324010A1 (en) * 2008-06-26 2009-12-31 Billy Hou Neural network-controlled automatic tracking and recognizing system and method
CN105868797A (zh) * 2015-01-22 2016-08-17 深圳市腾讯计算机系统有限公司 网络参数训练方法、景物类型识别方法及装置
CN104899561A (zh) * 2015-05-27 2015-09-09 华南理工大学 一种并行化的人体行为识别方法
CN105139401A (zh) * 2015-08-31 2015-12-09 山东中金融仕文化科技股份有限公司 一种深度图中深度的可信度的评估方法
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106203354A (zh) * 2016-07-14 2016-12-07 南京信息工程大学 基于混合深度结构的场景识别方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527358A (zh) * 2017-08-23 2017-12-29 北京图森未来科技有限公司 一种稠密光流估计方法及装置
CN111316123A (zh) * 2017-11-03 2020-06-19 谷歌有限责任公司 单视图深度预测的光圈监督
CN109754417B (zh) * 2017-11-03 2023-08-01 百度(美国)有限责任公司 从图像中无监督学习几何结构的系统与方法
CN109754417A (zh) * 2017-11-03 2019-05-14 百度(美国)有限责任公司 从图像中无监督学习几何结构的系统与方法
CN108305229A (zh) * 2018-01-29 2018-07-20 深圳市唯特视科技有限公司 一种基于深度学习轮廓网络的多视图重建方法
CN108491763A (zh) * 2018-03-01 2018-09-04 北京市商汤科技开发有限公司 三维场景识别网络的无监督训练方法、装置及存储介质
CN108615244A (zh) * 2018-03-27 2018-10-02 中国地质大学(武汉) 一种基于cnn和深度滤波器的图像深度估计方法及系统
CN110335228A (zh) * 2018-03-30 2019-10-15 杭州海康威视数字技术股份有限公司 一种图像视差的确定方法、装置及系统
CN110335228B (zh) * 2018-03-30 2021-06-25 杭州海康威视数字技术股份有限公司 一种图像视差的确定方法、装置及系统
CN108648216A (zh) * 2018-04-19 2018-10-12 长沙学院 一种基于光流与深度学习的视觉里程计实现方法和系统
CN108764347A (zh) * 2018-05-30 2018-11-06 大连理工大学 基于卷积神经网络的地球仪国家图像识别方法
CN108764347B (zh) * 2018-05-30 2021-09-24 大连理工大学 基于卷积神经网络的地球仪国家图像识别方法
CN110740308A (zh) * 2018-07-19 2020-01-31 陈良基 时间一致可靠度传递系统
CN110740308B (zh) * 2018-07-19 2021-03-19 陈良基 时间一致可靠度传递系统
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法
CN111204346A (zh) * 2018-11-05 2020-05-29 通用汽车环球科技运作有限责任公司 用于自动车辆的控制命令的端对端学习的方法及系统
CN109919874B (zh) * 2019-03-07 2023-06-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN109919874A (zh) * 2019-03-07 2019-06-21 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111414975A (zh) * 2020-04-05 2020-07-14 北京工业大学 一种基于移动摄像机和神经网络的运动矢量预测方法
CN111414975B (zh) * 2020-04-05 2024-03-12 北京工业大学 一种基于移动摄像机和神经网络的运动矢量预测方法
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111540000B (zh) * 2020-04-28 2021-11-05 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN113822201A (zh) * 2021-09-24 2021-12-21 大连海事大学 基于流场速度分量时程的水下物体外形识别的深度学习方法
CN113822201B (zh) * 2021-09-24 2023-01-06 大连海事大学 基于流场速度分量时程的水下物体外形识别的深度学习方法
CN114485417A (zh) * 2022-01-07 2022-05-13 哈尔滨工业大学 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统

Also Published As

Publication number Publication date
CN106780543B (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN107204010B (zh) 一种单目图像深度估计方法与系统
CN110458939B (zh) 基于视角生成的室内场景建模方法
US11238602B2 (en) Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN110378844A (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN107481279A (zh) 一种单目视频深度图计算方法
CN106780546B (zh) 基于卷积神经网络的运动模糊编码点的身份识别方法
CN111325165A (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN110246181A (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN107766864A (zh) 提取特征的方法和装置、物体识别的方法和装置
CN112819853B (zh) 一种基于语义先验的视觉里程计方法
CN113570658A (zh) 基于深度卷积网络的单目视频深度估计方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113903028A (zh) 一种目标检测方法及电子设备
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN115661459A (zh) 一种使用差异信息的2D mean teacher模型
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN114758337A (zh) 一种语义实例重建方法、装置、设备及介质
CN113516693B (zh) 一种快速通用的图像配准方法
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其系统
CN116109778A (zh) 基于深度学习的人脸三维重建方法、计算机设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant