CN108648224B - 一种基于人工神经网络的实时场景布局识别及重建的方法 - Google Patents
一种基于人工神经网络的实时场景布局识别及重建的方法 Download PDFInfo
- Publication number
- CN108648224B CN108648224B CN201810481159.8A CN201810481159A CN108648224B CN 108648224 B CN108648224 B CN 108648224B CN 201810481159 A CN201810481159 A CN 201810481159A CN 108648224 B CN108648224 B CN 108648224B
- Authority
- CN
- China
- Prior art keywords
- scene
- stage
- network
- layout
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/04—Architectural design, interior design
Abstract
本发明公开了一种基于人工神经网络的实时场景布局识别及重建方。本发明用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,得到室内场景的布局识别后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。本发明利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确;使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。
Description
技术领域
本发明属于计算机视觉、计算机图形学技术领域,特别地,本发明涉及一种基于人工神经网络的实时场景布局识别及重建方法。
背景技术
计算机视觉的终极目标是达到人眼和人脑对图像的理解能力,在信息爆炸的时代为人类分担图像信息相关的处理与分析工作,也使更多智能化设备能更好地完成更多的任务。
室内场景布局识别和三维重建是计算机视觉与计算机图像学领域中一个重要且基础的问题,可以为其他室内场景的任务提供强有力的先验条件,主要包括安防领域的行人检测、目标追踪、人脸识别等,互联网信息领域的图像内容检索,智能机器人领域的目标找寻、场景理解、障碍物检测等,给人类日常生活和工作的很多方面提供了便利,具有重要的理论研究意义和工程应用价值。在智能机器人领域,场景布局的识别和重建为机器人的定位起到重要作用;在增强现实中,虚拟物体要在镜头下实现较好地定位也需要对场景实现较好的感知。目前处理复杂室内场景的布局识别和三维重建仍存在较大问题,因此该问题具有极高的科研和应用价值。
在计算机视觉领域,对复杂室内场景进行较好的布局识别和三维重建一直是一个重要但具有挑战性的问题。因此,本发明中的方法利用人工神经网络模型对室内场景进行布局识别,克服传统方法在处理复杂场景时存在的不足,为三维重建提供较好的输入信息,使得重建后得到平面更为精确。
发明内容
本发明的目的是解决复杂室内场景下实时布局识别和平面三维重建的问题,其输入是一段视频帧序列,发明中的方法用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,提高网络判断的准确性,得到室内场景的布局识别(地面与墙面,天花板与墙面,墙面与墙面之间的交线)后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。该方法利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确。
本发明提出的一种基于人工神经网络的实时场景布局识别及重建方法,其主要步骤如下所示:
步骤1.训练阶段;
训练分为三个阶段:
第一阶段:实现对室内场景的语义分割;
第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在第一、第二阶段得到模型的基础上进行模型的微调。
使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;
步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,算法对单帧图像进行特征点检测,并对相邻帧的图像进行特征点匹配,用于得到每帧图像中的场景布局识别结果,添加帧与帧之间的图像特征点匹配可以使得得到的场景布局识别结果更为准确;
步骤3.基于相关约束对实时场景进行重建,相关约束条件如下:
I.相机光轴方向平行于地面;
II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
其中,K,q和Q分别如下
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi;
单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。
本发明的特点及有益效果:
本发明实现了一种基于人工神经网络的实时场景布局识别及重建方法,对室内场景下作的任务有重大意义。本发明中的方法优势如下
1.利用人工神经网络模型完成室内场景下的布局识别任务,提高系统对复杂场景的处理能力
2.利用视频帧序列的特性,寻找到帧与帧之间的相关性,优化每帧的布局识别
3.使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。
此技术可以在普通PC机或工作站等硬件系统上实现。
附图说明
图1为本发明方法总体流程图。
图2为一段视频中的一帧的原图,络实现场景布局识别的结果和重建得到三维模型;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的基于人工神经网络的实时场景布局识别及重建方法,如图1所示,包括以下三个步骤:
1)搭建人工神经网络模型,方法中选择了卷积残差神经网络作为网络的基本结构,为了使得网络可以输出矩阵,在网络的顶端用若干卷积层代替一般的全连接层。为了克服训练数据的不均衡和更好地处理场景中存在较为严重遮挡的情况,网络训练分为三个阶段:
I.第一阶段:训练网络实现对复杂室内场景的语义分割。此处用到的网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型可以对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终可以得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。
II.第二阶段:训练网络实现场景布局分割。第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后得到若干对应语义分割的37通道的特征图,groundtruth为场景中三类交线(墙与地面,墙与天花板,墙与墙)和背景的分类结果。将每个像素点作为训练数据。该阶段使用一个全连接层,实现37类语义分割的概率到4类布局(三种交线加背景)的映射,训练得到的模型实现输入37维概率分布,输出该种情况下4类布局的概率分布。
III.第三阶段:该阶段为前两个阶段的综合,将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值。训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
2)方法中处理的数据为视频帧序列,由于视频帧是连续的,因此视频帧之间存在一定的相关性,这部分检测帧与帧之间特征点,并将特征点进行匹配,配合第一部分得到的室内场景布局识别模型,一起对视频帧中的场景进行布局识别,将帧间的相关性作为又一约束,使得布局识别更为准确。
3)本发明中的方法基于以下假设下进行
I.相机光轴方向平行于地面
II.所拍摄的场景为曼哈顿世界,相邻平面两两垂直
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
这里的K,q和Q分别如下
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi
目标输出是场景中平面的法向量和平面到相机中心的距离。主要原理为:相机坐标系下空间中一点映射回像素坐标系下有且仅有一个点,像素坐标系中两个平面交线上的点同时属于两个平面,根据两个平面的法向量和到相机中心的距离分别可以还原得到两个相机坐标系下的三维坐标,理想情况下得到的两个三维坐标应当重合,因此约束两个三维坐标之间的距离越小,求得的法向量和距离越理想。利用前两步得到的场景布局识别信息做一步初始化,得到更为理想的交线信息,利用场景中交线的端点列出约束条件,用fmincon函数进行求解该非线性规划问题,输出结果为平面的单位法向量和平面到相机中心的距离。
得到平面的信息后,为了实现更好的显示效果,输入得到的平面信息,使用OpenGL进行平面渲染,可以得到视频帧序列中每帧场景对应的布局的三维平面重建结果。
本发明的一个实施例包含一段视频帧序列,实施例中的每一帧都会重建出与场景对应的三维平面。图2展示了其中一帧的输入和部分结果。处理一帧图像的过程具体包括以下步骤:
1)根据之前部分提到的三个阶段训练得到实现室内场景布局识别的模型,取视频帧序列中一帧,调用模型进行处理,输出得到w*h*4的特征图,单个通道对应于该类标签的概率热图。取每个像素对应的4维概率向量,该向量中最大值所在位置,作为该像素点的预测标签,最终得到一张场景布局识别的灰度图。
2)对该帧图像进行特征点检测,并与之间一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签。
3)对得到的场景布局识别结果进行进一步处理,一般来说该结果中的交线较为粗糙,处理后得到细长的直线来表示布局结果,作为重建部分的初始化。取得到直线的端点坐标,根据如下公式列出约束条件:
Qi=λK-1qi
dp=npQi=npλK-1qi
使用fmincon函数进行非线性规划求解,得到该帧图像中场景平面对应的单位法向量和平面到相机中心的距离。用得到的平面信息使用OpenGL进行平面渲染,得到最终显示结果。
Claims (4)
1.一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于:
步骤1.训练阶段;
训练分为三个阶段:
第一阶段:实现对室内场景的语义分割;
第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在原有权值的基础上进行权值的微调;
使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;所述的ground truth为场景中三类交线,即墙与地面,墙与天花板,墙与墙之间的交线和背景的分类结果;
步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,对单帧图像进行特征点检测,并与之前一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签,用于得到每帧图像中的场景布局识别结果;
步骤3.基于相关约束对实时场景进行重建,相关约束条件如下:
I.相机光轴方向平行于地面;
II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备;相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
其中,K,q和Q分别如下
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi;
单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。
2.根据权利要求1所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1中第一阶段所述的实现对室内场景的语义分割,具体如下:
通过训练网络实现对复杂室内场景的语义分割,所述的训练网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型能够对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。
3.根据权利要求2所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1所述的第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别,具体如下:
第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后,得到若干对应语义分割的37通道的特征图,ground truth为场景中三类交线和背景的分类结果;将每个像素点作为训练数据;第二阶段使用一个全连接层,实现37类语义分割的概率到4类布局的映射,训练得到的模型实现输入37维概率分布,输出4类布局的概率分布。
4.根据权利要求3所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于所述的第三阶段具体实现录如下:
将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值;训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810481159.8A CN108648224B (zh) | 2018-05-18 | 2018-05-18 | 一种基于人工神经网络的实时场景布局识别及重建的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810481159.8A CN108648224B (zh) | 2018-05-18 | 2018-05-18 | 一种基于人工神经网络的实时场景布局识别及重建的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648224A CN108648224A (zh) | 2018-10-12 |
CN108648224B true CN108648224B (zh) | 2021-07-13 |
Family
ID=63756959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810481159.8A Active CN108648224B (zh) | 2018-05-18 | 2018-05-18 | 一种基于人工神经网络的实时场景布局识别及重建的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648224B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509222B (zh) * | 2018-10-26 | 2020-11-03 | 北京陌上花科技有限公司 | 直线类物体的检测方法及装置 |
CN110633628B (zh) * | 2019-08-02 | 2022-05-06 | 杭州电子科技大学 | 基于人工神经网络的rgb图像场景三维模型重建方法 |
CN112712584A (zh) * | 2019-10-25 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 墙线确定方法以及空间建模方法、装置、设备 |
CN111091618B (zh) * | 2019-12-17 | 2020-08-28 | 吉林吉动盘古网络科技股份有限公司 | 基于户型数据驱动的组合式室内布局方法和系统 |
CN111311654B (zh) * | 2020-02-13 | 2023-11-24 | 北京百度网讯科技有限公司 | 一种相机位置的配准方法、装置、电子设备及存储介质 |
CN111291692B (zh) * | 2020-02-17 | 2023-10-20 | 咪咕文化科技有限公司 | 视频场景识别方法、装置、电子设备及存储介质 |
CN113034570A (zh) * | 2021-03-09 | 2021-06-25 | 北京字跳网络技术有限公司 | 图像处理方法、装置和电子设备 |
CN113111436B (zh) * | 2021-04-15 | 2022-05-31 | 泉州装备制造研究所 | 一种飞机大部件预连接布局及多约束作用顺序优化方法 |
CN113140034B (zh) * | 2021-04-27 | 2023-08-22 | 上海科技大学 | 基于房间布局的全景新视角生成方法、装置、设备和介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262725A (zh) * | 2010-05-31 | 2011-11-30 | 普莱姆森斯有限公司 | 三维场景的分析 |
CN103413352A (zh) * | 2013-07-29 | 2013-11-27 | 西北工业大学 | 基于rgbd多传感器融合的场景三维重建方法 |
CN104077596A (zh) * | 2014-06-18 | 2014-10-01 | 河海大学 | 一种无标志物跟踪注册方法 |
CN104268546A (zh) * | 2014-05-28 | 2015-01-07 | 苏州大学 | 一种基于主题模型的动态场景分类方法 |
CN105825518A (zh) * | 2016-03-31 | 2016-08-03 | 西安电子科技大学 | 基于移动平台拍摄的序列图像快速三维重建方法 |
CN106384383A (zh) * | 2016-09-08 | 2017-02-08 | 哈尔滨工程大学 | 一种基于fast和freak特征匹配算法的rgb‑d和slam场景重建方法 |
CN107240129A (zh) * | 2017-05-10 | 2017-10-10 | 同济大学 | 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法 |
CN107247834A (zh) * | 2017-05-31 | 2017-10-13 | 华中科技大学 | 一种基于图像识别的三维环境模型重构方法、设备及系统 |
CN107292956A (zh) * | 2017-07-12 | 2017-10-24 | 杭州电子科技大学 | 一种基于曼哈顿假设的场景重建方法 |
CN107729799A (zh) * | 2017-06-13 | 2018-02-23 | 银江股份有限公司 | 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统 |
CN107909600A (zh) * | 2017-11-04 | 2018-04-13 | 南京奇蛙智能科技有限公司 | 一种基于视觉的无人机实时运动目标分类与检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206434A1 (en) * | 2016-01-14 | 2017-07-20 | Ford Global Technologies, Llc | Low- and high-fidelity classifiers applied to road-scene images |
-
2018
- 2018-05-18 CN CN201810481159.8A patent/CN108648224B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262725A (zh) * | 2010-05-31 | 2011-11-30 | 普莱姆森斯有限公司 | 三维场景的分析 |
CN103413352A (zh) * | 2013-07-29 | 2013-11-27 | 西北工业大学 | 基于rgbd多传感器融合的场景三维重建方法 |
CN104268546A (zh) * | 2014-05-28 | 2015-01-07 | 苏州大学 | 一种基于主题模型的动态场景分类方法 |
CN104077596A (zh) * | 2014-06-18 | 2014-10-01 | 河海大学 | 一种无标志物跟踪注册方法 |
CN105825518A (zh) * | 2016-03-31 | 2016-08-03 | 西安电子科技大学 | 基于移动平台拍摄的序列图像快速三维重建方法 |
CN106384383A (zh) * | 2016-09-08 | 2017-02-08 | 哈尔滨工程大学 | 一种基于fast和freak特征匹配算法的rgb‑d和slam场景重建方法 |
CN107240129A (zh) * | 2017-05-10 | 2017-10-10 | 同济大学 | 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法 |
CN107247834A (zh) * | 2017-05-31 | 2017-10-13 | 华中科技大学 | 一种基于图像识别的三维环境模型重构方法、设备及系统 |
CN107729799A (zh) * | 2017-06-13 | 2018-02-23 | 银江股份有限公司 | 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统 |
CN107292956A (zh) * | 2017-07-12 | 2017-10-24 | 杭州电子科技大学 | 一种基于曼哈顿假设的场景重建方法 |
CN107909600A (zh) * | 2017-11-04 | 2018-04-13 | 南京奇蛙智能科技有限公司 | 一种基于视觉的无人机实时运动目标分类与检测方法 |
Non-Patent Citations (3)
Title |
---|
"Physics Inspired Optimization on Semantic Transfer Features: An Alternative Method for Room Layout Estimation";Hao Zhao等;《arXiv》;20170703;第1-9页 * |
"Pyramid Scene Parsing Network";Hengshuang Zhao;《arXiv》;20170427;第1-11页 * |
"机器人室内语义建图中的场所感知方法综述";朱博等;《自动化学报》;20170430;第43卷(第1期);第493-508页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108648224A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648224B (zh) | 一种基于人工神经网络的实时场景布局识别及重建的方法 | |
Sahu et al. | Artificial intelligence (AI) in augmented reality (AR)-assisted manufacturing applications: a review | |
US11238606B2 (en) | Method and system for performing simultaneous localization and mapping using convolutional image transformation | |
Li et al. | Indoor relocalization in challenging environments with dual-stream convolutional neural networks | |
Tang et al. | Geometric correspondence network for camera motion estimation | |
Yin et al. | Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction | |
EP3547256B1 (en) | Extracting a feature descriptor for an image feature | |
US20180012411A1 (en) | Augmented Reality Methods and Devices | |
CN110633628B (zh) | 基于人工神经网络的rgb图像场景三维模型重建方法 | |
CN115097937A (zh) | 用于长方体检测的深度学习系统 | |
US11921291B2 (en) | Systems and methods for performing self-improving visual odometry | |
CN113034652A (zh) | 虚拟形象驱动方法、装置、设备及存储介质 | |
Won et al. | End-to-end learning for omnidirectional stereo matching with uncertainty prior | |
Lu et al. | Localize me anywhere, anytime: a multi-task point-retrieval approach | |
Zhang et al. | Vehicle global 6-DoF pose estimation under traffic surveillance camera | |
CN112053447A (zh) | 一种增强现实三维注册方法及装置 | |
KR20190088379A (ko) | 자세 추정 방법, 추정된 자세를 이용하여 가상 객체를 디스플레이하는 방법, 및 이를 수행하는 장치들 | |
Zhong et al. | 3d geometry-aware semantic labeling of outdoor street scenes | |
Alcantarilla et al. | Visibility learning in large-scale urban environment | |
CN114266823A (zh) | 一种结合SuperPoint网络特征提取的单目SLAM方法 | |
Kim et al. | CT-Loc: Cross-domain visual localization with a channel-wise transformer | |
Benito-Picazo et al. | Motion detection with low cost hardware for PTZ cameras | |
Fang et al. | Fast depth estimation from single image using structured forest | |
Wang et al. | 3D object detection algorithm for panoramic images with multi-scale convolutional neural network | |
Yang et al. | Towards generic 3d tracking in RGBD videos: Benchmark and baseline |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |