CN108648224B - 一种基于人工神经网络的实时场景布局识别及重建的方法 - Google Patents

一种基于人工神经网络的实时场景布局识别及重建的方法 Download PDF

Info

Publication number
CN108648224B
CN108648224B CN201810481159.8A CN201810481159A CN108648224B CN 108648224 B CN108648224 B CN 108648224B CN 201810481159 A CN201810481159 A CN 201810481159A CN 108648224 B CN108648224 B CN 108648224B
Authority
CN
China
Prior art keywords
scene
stage
network
layout
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810481159.8A
Other languages
English (en)
Other versions
CN108648224A (zh
Inventor
颜成钢
邵碧尧
徐枫
丁贵广
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810481159.8A priority Critical patent/CN108648224B/zh
Publication of CN108648224A publication Critical patent/CN108648224A/zh
Application granted granted Critical
Publication of CN108648224B publication Critical patent/CN108648224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/04Architectural design, interior design

Abstract

本发明公开了一种基于人工神经网络的实时场景布局识别及重建方。本发明用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,得到室内场景的布局识别后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。本发明利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确;使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。

Description

一种基于人工神经网络的实时场景布局识别及重建的方法
技术领域
本发明属于计算机视觉、计算机图形学技术领域,特别地,本发明涉及一种基于人工神经网络的实时场景布局识别及重建方法。
背景技术
计算机视觉的终极目标是达到人眼和人脑对图像的理解能力,在信息爆炸的时代为人类分担图像信息相关的处理与分析工作,也使更多智能化设备能更好地完成更多的任务。
室内场景布局识别和三维重建是计算机视觉与计算机图像学领域中一个重要且基础的问题,可以为其他室内场景的任务提供强有力的先验条件,主要包括安防领域的行人检测、目标追踪、人脸识别等,互联网信息领域的图像内容检索,智能机器人领域的目标找寻、场景理解、障碍物检测等,给人类日常生活和工作的很多方面提供了便利,具有重要的理论研究意义和工程应用价值。在智能机器人领域,场景布局的识别和重建为机器人的定位起到重要作用;在增强现实中,虚拟物体要在镜头下实现较好地定位也需要对场景实现较好的感知。目前处理复杂室内场景的布局识别和三维重建仍存在较大问题,因此该问题具有极高的科研和应用价值。
在计算机视觉领域,对复杂室内场景进行较好的布局识别和三维重建一直是一个重要但具有挑战性的问题。因此,本发明中的方法利用人工神经网络模型对室内场景进行布局识别,克服传统方法在处理复杂场景时存在的不足,为三维重建提供较好的输入信息,使得重建后得到平面更为精确。
发明内容
本发明的目的是解决复杂室内场景下实时布局识别和平面三维重建的问题,其输入是一段视频帧序列,发明中的方法用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,提高网络判断的准确性,得到室内场景的布局识别(地面与墙面,天花板与墙面,墙面与墙面之间的交线)后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。该方法利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确。
本发明提出的一种基于人工神经网络的实时场景布局识别及重建方法,其主要步骤如下所示:
步骤1.训练阶段;
训练分为三个阶段:
第一阶段:实现对室内场景的语义分割;
第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在第一、第二阶段得到模型的基础上进行模型的微调。
使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;
步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,算法对单帧图像进行特征点检测,并对相邻帧的图像进行特征点匹配,用于得到每帧图像中的场景布局识别结果,添加帧与帧之间的图像特征点匹配可以使得得到的场景布局识别结果更为准确;
步骤3.基于相关约束对实时场景进行重建,相关约束条件如下:
I.相机光轴方向平行于地面;
II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
其中,K,q和Q分别如下
Figure BDA0001665558690000031
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi
单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。
本发明的特点及有益效果:
本发明实现了一种基于人工神经网络的实时场景布局识别及重建方法,对室内场景下作的任务有重大意义。本发明中的方法优势如下
1.利用人工神经网络模型完成室内场景下的布局识别任务,提高系统对复杂场景的处理能力
2.利用视频帧序列的特性,寻找到帧与帧之间的相关性,优化每帧的布局识别
3.使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。
此技术可以在普通PC机或工作站等硬件系统上实现。
附图说明
图1为本发明方法总体流程图。
图2为一段视频中的一帧的原图,络实现场景布局识别的结果和重建得到三维模型;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的基于人工神经网络的实时场景布局识别及重建方法,如图1所示,包括以下三个步骤:
1)搭建人工神经网络模型,方法中选择了卷积残差神经网络作为网络的基本结构,为了使得网络可以输出矩阵,在网络的顶端用若干卷积层代替一般的全连接层。为了克服训练数据的不均衡和更好地处理场景中存在较为严重遮挡的情况,网络训练分为三个阶段:
I.第一阶段:训练网络实现对复杂室内场景的语义分割。此处用到的网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型可以对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终可以得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。
II.第二阶段:训练网络实现场景布局分割。第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后得到若干对应语义分割的37通道的特征图,groundtruth为场景中三类交线(墙与地面,墙与天花板,墙与墙)和背景的分类结果。将每个像素点作为训练数据。该阶段使用一个全连接层,实现37类语义分割的概率到4类布局(三种交线加背景)的映射,训练得到的模型实现输入37维概率分布,输出该种情况下4类布局的概率分布。
III.第三阶段:该阶段为前两个阶段的综合,将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值。训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
2)方法中处理的数据为视频帧序列,由于视频帧是连续的,因此视频帧之间存在一定的相关性,这部分检测帧与帧之间特征点,并将特征点进行匹配,配合第一部分得到的室内场景布局识别模型,一起对视频帧中的场景进行布局识别,将帧间的相关性作为又一约束,使得布局识别更为准确。
3)本发明中的方法基于以下假设下进行
I.相机光轴方向平行于地面
II.所拍摄的场景为曼哈顿世界,相邻平面两两垂直
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
这里的K,q和Q分别如下
Figure BDA0001665558690000051
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi
目标输出是场景中平面的法向量和平面到相机中心的距离。主要原理为:相机坐标系下空间中一点映射回像素坐标系下有且仅有一个点,像素坐标系中两个平面交线上的点同时属于两个平面,根据两个平面的法向量和到相机中心的距离分别可以还原得到两个相机坐标系下的三维坐标,理想情况下得到的两个三维坐标应当重合,因此约束两个三维坐标之间的距离越小,求得的法向量和距离越理想。利用前两步得到的场景布局识别信息做一步初始化,得到更为理想的交线信息,利用场景中交线的端点列出约束条件,用fmincon函数进行求解该非线性规划问题,输出结果为平面的单位法向量和平面到相机中心的距离。
得到平面的信息后,为了实现更好的显示效果,输入得到的平面信息,使用OpenGL进行平面渲染,可以得到视频帧序列中每帧场景对应的布局的三维平面重建结果。
本发明的一个实施例包含一段视频帧序列,实施例中的每一帧都会重建出与场景对应的三维平面。图2展示了其中一帧的输入和部分结果。处理一帧图像的过程具体包括以下步骤:
1)根据之前部分提到的三个阶段训练得到实现室内场景布局识别的模型,取视频帧序列中一帧,调用模型进行处理,输出得到w*h*4的特征图,单个通道对应于该类标签的概率热图。取每个像素对应的4维概率向量,该向量中最大值所在位置,作为该像素点的预测标签,最终得到一张场景布局识别的灰度图。
2)对该帧图像进行特征点检测,并与之间一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签。
3)对得到的场景布局识别结果进行进一步处理,一般来说该结果中的交线较为粗糙,处理后得到细长的直线来表示布局结果,作为重建部分的初始化。取得到直线的端点坐标,根据如下公式列出约束条件:
Qi=λK-1qi
Figure BDA0001665558690000061
dp=npQi=npλK-1qi
使用fmincon函数进行非线性规划求解,得到该帧图像中场景平面对应的单位法向量和平面到相机中心的距离。用得到的平面信息使用OpenGL进行平面渲染,得到最终显示结果。

Claims (4)

1.一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于:
步骤1.训练阶段;
训练分为三个阶段:
第一阶段:实现对室内场景的语义分割;
第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在原有权值的基础上进行权值的微调;
使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;所述的ground truth为场景中三类交线,即墙与地面,墙与天花板,墙与墙之间的交线和背景的分类结果;
步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,对单帧图像进行特征点检测,并与之前一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签,用于得到每帧图像中的场景布局识别结果;
步骤3.基于相关约束对实时场景进行重建,相关约束条件如下:
I.相机光轴方向平行于地面;
II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备;相机坐标系下Q和像素坐标系下q满足如下公式
Qi=λK-1qi
其中,K,q和Q分别如下
Figure FDA0003075757970000011
平面法向量和平面到相机中心距离满足
dp=npQi=npλK-1qi
单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。
2.根据权利要求1所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1中第一阶段所述的实现对室内场景的语义分割,具体如下:
通过训练网络实现对复杂室内场景的语义分割,所述的训练网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型能够对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。
3.根据权利要求2所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1所述的第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别,具体如下:
第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后,得到若干对应语义分割的37通道的特征图,ground truth为场景中三类交线和背景的分类结果;将每个像素点作为训练数据;第二阶段使用一个全连接层,实现37类语义分割的概率到4类布局的映射,训练得到的模型实现输入37维概率分布,输出4类布局的概率分布。
4.根据权利要求3所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于所述的第三阶段具体实现录如下:
将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值;训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
CN201810481159.8A 2018-05-18 2018-05-18 一种基于人工神经网络的实时场景布局识别及重建的方法 Active CN108648224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810481159.8A CN108648224B (zh) 2018-05-18 2018-05-18 一种基于人工神经网络的实时场景布局识别及重建的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810481159.8A CN108648224B (zh) 2018-05-18 2018-05-18 一种基于人工神经网络的实时场景布局识别及重建的方法

Publications (2)

Publication Number Publication Date
CN108648224A CN108648224A (zh) 2018-10-12
CN108648224B true CN108648224B (zh) 2021-07-13

Family

ID=63756959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810481159.8A Active CN108648224B (zh) 2018-05-18 2018-05-18 一种基于人工神经网络的实时场景布局识别及重建的方法

Country Status (1)

Country Link
CN (1) CN108648224B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509222B (zh) * 2018-10-26 2020-11-03 北京陌上花科技有限公司 直线类物体的检测方法及装置
CN110633628B (zh) * 2019-08-02 2022-05-06 杭州电子科技大学 基于人工神经网络的rgb图像场景三维模型重建方法
CN112712584A (zh) * 2019-10-25 2021-04-27 阿里巴巴集团控股有限公司 墙线确定方法以及空间建模方法、装置、设备
CN111091618B (zh) * 2019-12-17 2020-08-28 吉林吉动盘古网络科技股份有限公司 基于户型数据驱动的组合式室内布局方法和系统
CN111311654B (zh) * 2020-02-13 2023-11-24 北京百度网讯科技有限公司 一种相机位置的配准方法、装置、电子设备及存储介质
CN111291692B (zh) * 2020-02-17 2023-10-20 咪咕文化科技有限公司 视频场景识别方法、装置、电子设备及存储介质
CN113034570A (zh) * 2021-03-09 2021-06-25 北京字跳网络技术有限公司 图像处理方法、装置和电子设备
CN113111436B (zh) * 2021-04-15 2022-05-31 泉州装备制造研究所 一种飞机大部件预连接布局及多约束作用顺序优化方法
CN113140034B (zh) * 2021-04-27 2023-08-22 上海科技大学 基于房间布局的全景新视角生成方法、装置、设备和介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262725A (zh) * 2010-05-31 2011-11-30 普莱姆森斯有限公司 三维场景的分析
CN103413352A (zh) * 2013-07-29 2013-11-27 西北工业大学 基于rgbd多传感器融合的场景三维重建方法
CN104077596A (zh) * 2014-06-18 2014-10-01 河海大学 一种无标志物跟踪注册方法
CN104268546A (zh) * 2014-05-28 2015-01-07 苏州大学 一种基于主题模型的动态场景分类方法
CN105825518A (zh) * 2016-03-31 2016-08-03 西安电子科技大学 基于移动平台拍摄的序列图像快速三维重建方法
CN106384383A (zh) * 2016-09-08 2017-02-08 哈尔滨工程大学 一种基于fast和freak特征匹配算法的rgb‑d和slam场景重建方法
CN107240129A (zh) * 2017-05-10 2017-10-10 同济大学 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法
CN107247834A (zh) * 2017-05-31 2017-10-13 华中科技大学 一种基于图像识别的三维环境模型重构方法、设备及系统
CN107292956A (zh) * 2017-07-12 2017-10-24 杭州电子科技大学 一种基于曼哈顿假设的场景重建方法
CN107729799A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统
CN107909600A (zh) * 2017-11-04 2018-04-13 南京奇蛙智能科技有限公司 一种基于视觉的无人机实时运动目标分类与检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206434A1 (en) * 2016-01-14 2017-07-20 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262725A (zh) * 2010-05-31 2011-11-30 普莱姆森斯有限公司 三维场景的分析
CN103413352A (zh) * 2013-07-29 2013-11-27 西北工业大学 基于rgbd多传感器融合的场景三维重建方法
CN104268546A (zh) * 2014-05-28 2015-01-07 苏州大学 一种基于主题模型的动态场景分类方法
CN104077596A (zh) * 2014-06-18 2014-10-01 河海大学 一种无标志物跟踪注册方法
CN105825518A (zh) * 2016-03-31 2016-08-03 西安电子科技大学 基于移动平台拍摄的序列图像快速三维重建方法
CN106384383A (zh) * 2016-09-08 2017-02-08 哈尔滨工程大学 一种基于fast和freak特征匹配算法的rgb‑d和slam场景重建方法
CN107240129A (zh) * 2017-05-10 2017-10-10 同济大学 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法
CN107247834A (zh) * 2017-05-31 2017-10-13 华中科技大学 一种基于图像识别的三维环境模型重构方法、设备及系统
CN107729799A (zh) * 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统
CN107292956A (zh) * 2017-07-12 2017-10-24 杭州电子科技大学 一种基于曼哈顿假设的场景重建方法
CN107909600A (zh) * 2017-11-04 2018-04-13 南京奇蛙智能科技有限公司 一种基于视觉的无人机实时运动目标分类与检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Physics Inspired Optimization on Semantic Transfer Features: An Alternative Method for Room Layout Estimation";Hao Zhao等;《arXiv》;20170703;第1-9页 *
"Pyramid Scene Parsing Network";Hengshuang Zhao;《arXiv》;20170427;第1-11页 *
"机器人室内语义建图中的场所感知方法综述";朱博等;《自动化学报》;20170430;第43卷(第1期);第493-508页 *

Also Published As

Publication number Publication date
CN108648224A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108648224B (zh) 一种基于人工神经网络的实时场景布局识别及重建的方法
Sahu et al. Artificial intelligence (AI) in augmented reality (AR)-assisted manufacturing applications: a review
US11238606B2 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
Li et al. Indoor relocalization in challenging environments with dual-stream convolutional neural networks
Tang et al. Geometric correspondence network for camera motion estimation
Yin et al. Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction
EP3547256B1 (en) Extracting a feature descriptor for an image feature
US20180012411A1 (en) Augmented Reality Methods and Devices
CN110633628B (zh) 基于人工神经网络的rgb图像场景三维模型重建方法
CN115097937A (zh) 用于长方体检测的深度学习系统
US11921291B2 (en) Systems and methods for performing self-improving visual odometry
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
Won et al. End-to-end learning for omnidirectional stereo matching with uncertainty prior
Lu et al. Localize me anywhere, anytime: a multi-task point-retrieval approach
Zhang et al. Vehicle global 6-DoF pose estimation under traffic surveillance camera
CN112053447A (zh) 一种增强现实三维注册方法及装置
KR20190088379A (ko) 자세 추정 방법, 추정된 자세를 이용하여 가상 객체를 디스플레이하는 방법, 및 이를 수행하는 장치들
Zhong et al. 3d geometry-aware semantic labeling of outdoor street scenes
Alcantarilla et al. Visibility learning in large-scale urban environment
CN114266823A (zh) 一种结合SuperPoint网络特征提取的单目SLAM方法
Kim et al. CT-Loc: Cross-domain visual localization with a channel-wise transformer
Benito-Picazo et al. Motion detection with low cost hardware for PTZ cameras
Fang et al. Fast depth estimation from single image using structured forest
Wang et al. 3D object detection algorithm for panoramic images with multi-scale convolutional neural network
Yang et al. Towards generic 3d tracking in RGBD videos: Benchmark and baseline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant