CN108230240A - 一种基于深度学习获取图像城市范围内位置及姿态的方法 - Google Patents
一种基于深度学习获取图像城市范围内位置及姿态的方法 Download PDFInfo
- Publication number
- CN108230240A CN108230240A CN201711493997.9A CN201711493997A CN108230240A CN 108230240 A CN108230240 A CN 108230240A CN 201711493997 A CN201711493997 A CN 201711493997A CN 108230240 A CN108230240 A CN 108230240A
- Authority
- CN
- China
- Prior art keywords
- city
- region
- picture
- image
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000009877 rendering Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000005192 partition Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000004615 ingredient Substances 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 abstract description 9
- 230000000007 visual effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于深度学习获取图像城市范围内位置及姿态的方法,涉及图像地理位置识别和增强现实领域。包括如下步骤:1)创建城市图片集;2)对城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域;3)训练联合学习图片姿态估计和场景识别神经网络;4)初始化,上传用户的GPS或者网络粗略位置信息;5)使用学习的划分函数对粗略的位置信息进行划分,下载对应网络模型和需要展示的渲染资料到用户端;6)采集用户输入相机视频流,运用下载的当前区域的网络模型预测当前时刻的三个层面的定位结果,若网络输出的预测结果置信度高于阈值,则使用预测的位置和姿态参数进行渲染资料的渲染。
Description
技术领域
本发明涉及图像地理位置识别和增强现实领域,尤其是涉及一种基于深度学习获取图像城市范围内位置及姿态的方法。
背景技术
随着移动互联网和智能设备的爆发式发展,拍摄和分享照片已经成为人们日常的一部分。如何从照片中推断出照片被拍摄的位置和拍摄的视角成为一项很有意义的问题。从照片中推断出拍摄位置和视角的问题在立体视觉(Multi-View Stereo)中也称为相机的姿态估计问题,是计算机视觉和机器人领域中的一个基本问题,拥有广泛的应用,比如在增强现实(Augmented Reality,简称AR),同时定位与地图构建(Simultaneous Localizationand Mapping,简称SLAM),以及基于图像的地理位置识别(Image-based LocationRecognition)通过把虚拟的3D图像或标注以接近真实的观测视角重叠在相机视频流上,以加强用户对现实世界的理解,增强现实已经被广泛应用于工业领域和消费领域,包含教育、医疗、娱乐、设计、军事等等。增强现实模块需要实时地估计图像的相机姿态,以提供相机设备在3D空间中对于位置和角度的6个自由度的参数,这一过程也称为图像重定位,或者“外参数标定”(Extrinsic calibration)。姿态估计的速度和准确度直接影响了增强现实的渲染,进而决定了用户体验的优劣。
虽然Weyand T([1]Weyand T,Leibe B.Discovering favorite views ofpopular places with iconoid shift[C]//International Conference on ComputerVision.IEEE Computer Society,2011:1132-1139),Li X([2]Herranz L,Jiang S,LiX.Scene Recognition with CNNs:Objects,Scales and Dataset Bias[C]//ComputerVision and Pattern Recognition.IEEE,2016:571-579)和Larson M在基于图像场景识别和地点识别中做了许多优秀的工作,但是他们大都只单纯的进行地名识别或经纬度坐标估计。Shotton等([3]Shotton J,Glocker B,Zach C,et al.Scene Coordinate RegressionForests for Camera Relocalization in RGB-D Images[C]//IEEE Conference onComputer Vision and Pattern Recognition.IEEE Computer Society,2013:2930-2937)则以RGB-D图像作为输入,用深度图像创建场景坐标的标注,把每个像素从摄像机坐标系映射到全局的场景坐标系中。然后像素和预先标注好的场景模型之间的映射关系训练一个回归森林。场景坐标回归森林本质上是在学习映射函数。然而,该算法的输入是RGB-D图像,RGB-D图像仅适用于室内场景。在测试阶段,为了进行图像定位,首先将查询图片输入到训练好的森林进行回归计算,然后使用基于RANSAC的姿态验证来确定一个一致的相机姿态结果。尽管坐标回归森林的准确度非常高,但它的缺点主要是需要RGB-D图像作为输入,在实际使用中,RGB-D图像只适用于室内场景,并且RANSAC计算过程非常耗时。
发明内容
本发明的目的在于提供一种基于深度学习获取图像城市范围内位置及姿态的方法。
本发明包括如下步骤:
1)创建城市图片集;
2)对城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域;
3)训练联合学习图片姿态估计和场景识别神经网络;
4)初始化,上传用户的GPS或者网络粗略位置信息;
5)使用学习的划分函数对粗略的位置信息进行划分,下载对应网络模型和需要展示的渲染资料到用户端;
6)采集用户输入相机视频流,运用下载的当前区域的网络模型预测当前时刻的三个层面的定位结果,若网络输出的预测结果置信度高于阈值,则使用预测的位置和姿态参数进行渲染资料的渲染。
在步骤1)中,所述创建城市图片集的具体方法可为:使用网络爬虫至图片分享网站下载城市中各个地方的景观图片,组成城市级别的图片数据库;假设初始化图片数据集包含了M个地标区域c1,2...M,位置标签xj属于某个区域ci。
在步骤2)中,所述对城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域的具体方法可为:初始化的城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域,初始化的图片数据集包含了M个地标区域c1,2...M,位置标签xj属于某个区域ci,使用第j张图片属于第i个区域的后验概率来确定图片j属于哪个区域;
(1)用贝叶斯公式计算后验概率:
条件概率p(y=i|xj)表示xj属于区域ci的概率,p(xj|y=i)服从归一化的高斯分布:
其中xj-ui表示照片j与第i类区域中心之间的地理距离;
(2)由于各个成分的参数和每张图片的区域分配都是未知的,因此采用EM算法求解混合高斯模型,对区域划分概率密度函数进行参数估计,对数似然函数的计算如下:
θi是第i个高斯成分的系数,系统算法在EM过程逐步迭代逼近最大似然值;
(3)在第t次迭代估计一个GMM模型的参数λt:
λt={μ1(t),...μM(t),Σ1(t),...ΣM(t),p1(t),...pM(t)}
(4)设置λt对每个训练样本计算似然函数,随后用似然函数最大的分布更新参数λt+1;
(5)重复计算步骤(3)和(4),直到似然函数的值收敛为止,算法得到对于样本xj的最优区域指派p(y=i|xj,λt)以及对应高斯成分的最优参数。
在步骤3)中,所述训练联合学习图片姿态估计和场景识别神经网络的具体方法可为:在网络末端引出三个子网络,同时进行训练,第一个输出和第二个输出分别用于输入图片位置的回归和图片方向的回归,使用欧式损失来训练姿态估计,为每张图片计算与ground truth的位置损失Lossloc和方向损失Lossoren如下:
三维向量x表示图像相机在三维空间中位置XYZ,四元素向量q表示三维空间中的方向,带head的变量表示样本的ground truth;
第三个子网络输出一个离散的概率分布,其中p0代表背景类的概率,用于输出分类的最后一层全连接层拥有C+1个神经元,使用Softmax计算对应于每个类别的输出概率pc,分类任务的Softmax损失公式如下:
其中,表示样本属于类别的概率,若样本属于类别,则标注否则等于最后计算出3个单独损失的加权求和来计算整个模型的总损失:
计算公式(5)中的losst代表第t个损失函数,λt表示它们的权重系数,权重λt由各个任务在整个中的重要程度决定。
所述位置可包括区域经纬度范围(Lat,Lng)、所属建筑场景的(Class ID)、在建筑场景坐标系中的相对坐标(X,Y,Z)、相对参考视点的方向向量四元素(q,x,y,z)等。
所述权重λt可设置为:λloc=1,λoren=250,λcls=0.5。
本发明解决如下应用场景:在一个城市中的用户用手机拍摄室外照片,应用要求定位这张照片,准确计算出拍摄地点、姿态,最后基于这些定位结果使用增强现实技术为用户渲染特定信息。因为在更大的场景中,获取准确的姿态标注难度增加,所以基于深度特征的图像重定位方法通常只能用于中小场景。当放大到城市级别的时候,训练集需要包含整个城市的所有表观,更合理的做法是仅对城市中一些热门的地区、地标进行提供定位服务。
与现有技术相比,本发明的优点和积极效果是把传统二维方法的图像地理位置定位拓展到三维空间中,达到丰富图片拍摄位置信息的目的。通过机器学习算法来学习集合图片位置和图片视觉内容对城市地理地貌和建筑风格进行聚类、划分,达到“由粗到细、由大到小”的定位目的,从而解决了复杂的城市中图像的定位问题。首先描述图像在现实世界中的位置包含了多层语义的关系,快速且精准的获取图像位置信息是LBS等应用的技术难点。本发明的技术提供多层次语义的精确地理位置描述可以拉近用户与物理世界的距离,降低用户认知物理空间的成本,有望为机器人、无人机和智能设备的自我定位问题找到新的解决方法。
附图说明
图1为本发明的系统框架图。
图2为本发明的渲染模块流程图。
图3为本发明的联合相机姿态估计和场景识别神经网络框架。
具体实施方式
下面结合实施例和附图进一步说明本发明。
一、发明的整体流程设计
本发明在PC端设计了基于深度学习获取图像城市范围内位置及姿态的实现系统,框架图如图1所示。整个发明的系统分为在线部分和在线部分。离线部分主要在服务器端,训练区域划分学习器把整个城市划分成一个个子区域,之后对每个子区域采用迁移学习的方法训练第四章提出的姿态回归和场景分类网络。对在线部分主要在移动客户端,用户到达某个区域后给服务器发送GPS或者手机基站的地理位置,服务器根据区域划分学习器的划分函数确定用户所属区域(场景),用户下载所属区域的网络模型和需要展示的信息。运行网络模型,输入照片并输出准确的位置坐标、姿态参数以及场景类别,根据输出的姿态渲染需要展示的信息。最后用户端返回估计结果,服务器记录用户准确的定位结果。
在实际使用阶段,用户只需下载所属建筑区域的网络模型。化大为小,按需更新的好处是,用户不需要下载整个城市的模型节省了时间和通信成本。同时,根据聚类结果划分小区域后,训练出的网络模型对该区域的姿态估计误差更低,因为对模型泛化性能要求降低了。不同于地标识别系统,我们的系统得到的是一个由粗到细、包含4个层次的位置描述。
所述位置描述包含区域经纬度范围(Lat,Lng)。
所述位置描述包含:所属建筑场景的(Class ID)。
所述位置描述包含在建筑场景坐标系中的相对坐标(X,Y,Z)。
所述位置描述包含相对参考视点的方向向量四元素(q,x,y,z)。
二、深度卷积神经网络预测图像位置和姿态
本发明在使用阶段把网络中的输入层和loss都去掉。输入一张图crop成224×224图像后,输入重定位网络,将得到图像的三维空间位置、代表方向的四元素向量、图像最可能的场景类别及置信度。
本发明首先从摄像头获取视频流,缩放读入帧的最短边位256,然后在图像中间裁剪224×224的图像,变换为BGR颜色通道。之后调用CAFFE开源库加载神经网络模型的参数。输入裁剪图片,经过一系列卷积运算得到视频帧的特征图。对特征图进行连续卷积和下采样,最后连接多个特征图,输出到图像的三维空间位置XYZ、代表方向的四元素向量Q、图像最可能的场景类别L及预测结果的置信度C。
三、对定位结果的渲染方法
本发明在渲染定位结果时,采用了两个线程并行处理。
1.姿态估计线程不断的接收新的相机帧,并运行本设计的深度学习算法预测输出场景类别和置信度以及对应相机姿态。置信度如果超过0.7,选择保留当前帧的姿态估计结果。把姿态结果输入卡尔曼滤波器,平滑姿态估计的抖动。把平滑之后的6个自由度姿态结果转换成相机视角矩阵ModelView矩阵。传递到OpenGL渲染线程。
2.OpenGL线程用于绘制用户界面和渲染增强现实效果。OpenGL线程根据当前确定的场景类别确定要在什么位置放什么叠加物,并送到OpenGL管线中。OpenGL线程会一直读取视角矩阵变量,如果姿态估计线程传递了新的摄像机视角矩阵,对应的渲染视角会发生变化,从而达到增强现实效果。
在Ubuntu14.04对本发明的算法进行实现与测试,调试使用单目摄像头来进行。使用OpenCV打开摄像头读取视频流,对视频帧进行操作。使用CAFFE库运行姿态估计线程。使用OpenGL进行渲染,使用GLUT绘制软件的UI界面,并利用JNI技术在Android 6.0操作系统上进行移植工作,系统中获取视频流、视频图像处理、界面以及OpenGL渲染模块,从而实现整个发明。
Claims (6)
1.一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于包括如下步骤:
1)创建城市图片集;
2)对城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域;
3)训练联合学习图片姿态估计和场景识别神经网络;
4)初始化,上传用户的GPS或者网络粗略位置信息;
5)使用学习的划分函数对粗略的位置信息进行划分,下载对应网络模型和需要展示的渲染资料到用户端;
6)采集用户输入相机视频流,运用下载的当前区域的网络模型预测当前时刻的三个层面的定位结果,若网络输出的预测结果置信度高于阈值,则使用预测的位置和姿态参数进行渲染资料的渲染。
2.如权利要求1所述一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于在步骤1)中,所述创建城市图片集的具体方法为:使用网络爬虫至图片分享网站下载城市中各个地方的景观图片,组成城市级别的图片数据库;假设初始化图片数据集包含了M个地标区域c1,2...M,位置标签xj属于某个区域ci。
3.如权利要求1所述一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于在步骤2)中,所述对城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域是初始化的城市图片集训练混合高斯模型,用训练出的混合高斯模型划分城市地理区域,初始化的图片数据集包含了M个地标区域c1,2...M,位置标签xj属于某个区域ci,使用第j张图片属于第i个区域的后验概率来确定图片j属于哪个区域;具体步骤为:
(1)用贝叶斯公式计算后验概率:
条件概率p(y=i|xj)表示xj属于区域ci的概率,p(xj|y=i)服从归一化的高斯分布:
其中xj-ui表示照片j与第i类区域中心之间的地理距离;
(2)由于各个成分的参数和每张图片的区域分配都是未知的,因此采用EM算法求解混合高斯模型,对区域划分概率密度函数进行参数估计,对数似然函数的计算如下:
θi是第i个高斯成分的系数,系统算法在EM过程逐步迭代逼近最大似然值;
(3)在第t次迭代估计一个GMM模型的参数λt:
λt={μ1(t),...μM(t),Σ1(t),...ΣM(t),p1(t),...pM(t)}
(4)设置λt对每个训练样本计算似然函数,随后用似然函数最大的分布更新参数λt+1;
(5)重复计算步骤(3)和(4),直到似然函数的值收敛为止,算法得到对于样本xj的最优区域指派p(y=i|xj,λt)以及对应高斯成分的最优参数。
4.如权利要求1所述一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于在步骤3)中,所述训练联合学习图片姿态估计和场景识别神经网络的具体方法为:在网络末端引出三个子网络,同时进行训练,第一个输出和第二个输出分别用于输入图片位置的回归和图片方向的回归,使用欧式损失来训练姿态估计,为每张图片计算与groundtruth的位置损失Lossloc和方向损失Lossoren如下:
三维向量x表示图像相机在三维空间中位置XYZ,四元素向量q表示三维空间中的方向,带head的变量表示样本的ground truth;
第三个子网络输出一个离散的概率分布,其中p0代表背景类的概率,用于输出分类的最后一层全连接层拥有C+1个神经元,使用Softmax计算对应于每个类别的输出概率pc,分类任务的Softmax损失公式如下:
其中,表示样本属于类别的概率,若样本属于类别,则标注否则等于最后计算出3个单独损失的加权求和来计算整个模型的总损失:
计算公式(5)中的losst代表第t个损失函数,λt表示它们的权重系数,权重λt由各个任务在整个中的重要程度决定。
5.如权利要求4所述一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于所述位置包括区域经纬度范围(Lat,Lng)、所属建筑场景的(Class ID)、在建筑场景坐标系中的相对坐标(X,Y,Z)、相对参考视点的方向向量四元素(q,x,y,z)。
6.如权利要求4所述一种基于深度学习获取图像城市范围内位置及姿态的方法,其特征在于所述权重λt设为:λloc=1,λoren=250,λcls=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711493997.9A CN108230240B (zh) | 2017-12-31 | 2017-12-31 | 一种基于深度学习获取图像城市范围内位置及姿态的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711493997.9A CN108230240B (zh) | 2017-12-31 | 2017-12-31 | 一种基于深度学习获取图像城市范围内位置及姿态的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108230240A true CN108230240A (zh) | 2018-06-29 |
CN108230240B CN108230240B (zh) | 2020-07-31 |
Family
ID=62644963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711493997.9A Active CN108230240B (zh) | 2017-12-31 | 2017-12-31 | 一种基于深度学习获取图像城市范围内位置及姿态的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108230240B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920711A (zh) * | 2018-07-25 | 2018-11-30 | 中国人民解放军国防科技大学 | 面向无人机起降引导的深度学习标签数据生成方法 |
CN109003272A (zh) * | 2018-07-26 | 2018-12-14 | 北京小米移动软件有限公司 | 图像处理方法、装置及系统 |
CN109218610A (zh) * | 2018-08-15 | 2019-01-15 | 北京天元创新科技有限公司 | 一种基于增强现实的运营商网络资源展示方法与装置 |
CN109509149A (zh) * | 2018-10-15 | 2019-03-22 | 天津大学 | 一种基于双通道卷积网络特征融合的超分辨率重建方法 |
CN109859268A (zh) * | 2019-01-30 | 2019-06-07 | 国网江苏省电力有限公司苏州供电分公司 | 基于生成查询网络的物体被遮挡部分成像方法 |
CN110989840A (zh) * | 2019-12-03 | 2020-04-10 | 成都纵横自动化技术股份有限公司 | 数据处理方法、前端设备、后端设备及地理信息系统 |
CN111028358A (zh) * | 2018-10-09 | 2020-04-17 | 香港理工大学深圳研究院 | 室内环境的增强现实显示方法、装置及终端设备 |
CN111612878A (zh) * | 2020-05-21 | 2020-09-01 | 广州光锥元信息科技有限公司 | 将静态照片制作成三维效果视频的方法及装置 |
CN111627098A (zh) * | 2020-05-21 | 2020-09-04 | 广州光锥元信息科技有限公司 | 对图像中水流区域识别并生成动态水流视频的方法及装置 |
CN111797854A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 场景模型建立方法、装置、存储介质及电子设备 |
CN111881804A (zh) * | 2020-07-22 | 2020-11-03 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
CN111968180A (zh) * | 2020-08-18 | 2020-11-20 | 裴成学 | 基于参考平面的高精度物体多自由度姿态估计方法及系统 |
US20200401152A1 (en) * | 2018-04-20 | 2020-12-24 | Honda Motor Co., Ltd. | Self-location estimation method |
CN109540138B (zh) * | 2018-11-12 | 2021-05-25 | 中南大学 | 基于视觉神经网络的室内导航方法、系统及可读存储器 |
CN113807357A (zh) * | 2021-09-08 | 2021-12-17 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN116704264A (zh) * | 2023-07-12 | 2023-09-05 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761526A (zh) * | 2014-01-26 | 2014-04-30 | 北京理工大学 | 一种基于特征位置优选整合的城区检测方法 |
CN104751184A (zh) * | 2015-04-08 | 2015-07-01 | 西安电子科技大学 | 基于强度统计稀疏的全极化sar图像分类方法 |
CN105005789A (zh) * | 2015-07-01 | 2015-10-28 | 北京理工大学 | 一种基于视觉词汇的遥感图像地物分类方法 |
CN105389550A (zh) * | 2015-10-29 | 2016-03-09 | 北京航空航天大学 | 一种基于稀疏指引与显著驱动的遥感目标检测方法 |
CN106203354A (zh) * | 2016-07-14 | 2016-12-07 | 南京信息工程大学 | 基于混合深度结构的场景识别方法 |
CN106250931A (zh) * | 2016-08-03 | 2016-12-21 | 武汉大学 | 一种基于随机卷积神经网络的高分辨率图像场景分类方法 |
-
2017
- 2017-12-31 CN CN201711493997.9A patent/CN108230240B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761526A (zh) * | 2014-01-26 | 2014-04-30 | 北京理工大学 | 一种基于特征位置优选整合的城区检测方法 |
CN104751184A (zh) * | 2015-04-08 | 2015-07-01 | 西安电子科技大学 | 基于强度统计稀疏的全极化sar图像分类方法 |
CN105005789A (zh) * | 2015-07-01 | 2015-10-28 | 北京理工大学 | 一种基于视觉词汇的遥感图像地物分类方法 |
CN105389550A (zh) * | 2015-10-29 | 2016-03-09 | 北京航空航天大学 | 一种基于稀疏指引与显著驱动的遥感目标检测方法 |
CN106203354A (zh) * | 2016-07-14 | 2016-12-07 | 南京信息工程大学 | 基于混合深度结构的场景识别方法 |
CN106250931A (zh) * | 2016-08-03 | 2016-12-21 | 武汉大学 | 一种基于随机卷积神经网络的高分辨率图像场景分类方法 |
Non-Patent Citations (4)
Title |
---|
ERIC BRACHMANN,ET AL.: ""Uncertainty-Driven 6D Pose Estimation of Objects and Scenes from a Single RGB Image"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
F.WALCH,ET AL.: ""Image-based localization using LSTMs for structured feature correlation"", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
HAN CHEN,ET AL.: ""Optimization Algorithm Toward Deep Features Based Camera Pose Estimation"", 《INTERNATIONAL CONFERENCE ON IMAGES AND GRAPHICS》 * |
任艺: ""基于LDA主题模型的图像场景分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11874666B2 (en) * | 2018-04-20 | 2024-01-16 | Honda Motor Co., Ltd. | Self-location estimation method |
US20200401152A1 (en) * | 2018-04-20 | 2020-12-24 | Honda Motor Co., Ltd. | Self-location estimation method |
CN108920711A (zh) * | 2018-07-25 | 2018-11-30 | 中国人民解放军国防科技大学 | 面向无人机起降引导的深度学习标签数据生成方法 |
CN109003272A (zh) * | 2018-07-26 | 2018-12-14 | 北京小米移动软件有限公司 | 图像处理方法、装置及系统 |
CN109003272B (zh) * | 2018-07-26 | 2021-02-09 | 北京小米移动软件有限公司 | 图像处理方法、装置及系统 |
CN109218610A (zh) * | 2018-08-15 | 2019-01-15 | 北京天元创新科技有限公司 | 一种基于增强现实的运营商网络资源展示方法与装置 |
CN111028358A (zh) * | 2018-10-09 | 2020-04-17 | 香港理工大学深圳研究院 | 室内环境的增强现实显示方法、装置及终端设备 |
CN111028358B (zh) * | 2018-10-09 | 2024-02-27 | 香港理工大学深圳研究院 | 室内环境的增强现实显示方法、装置及终端设备 |
CN109509149A (zh) * | 2018-10-15 | 2019-03-22 | 天津大学 | 一种基于双通道卷积网络特征融合的超分辨率重建方法 |
CN109540138B (zh) * | 2018-11-12 | 2021-05-25 | 中南大学 | 基于视觉神经网络的室内导航方法、系统及可读存储器 |
CN109859268A (zh) * | 2019-01-30 | 2019-06-07 | 国网江苏省电力有限公司苏州供电分公司 | 基于生成查询网络的物体被遮挡部分成像方法 |
CN111797854A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 场景模型建立方法、装置、存储介质及电子设备 |
CN111797854B (zh) * | 2019-04-09 | 2023-12-15 | Oppo广东移动通信有限公司 | 场景模型建立方法、装置、存储介质及电子设备 |
CN110989840B (zh) * | 2019-12-03 | 2023-07-25 | 成都纵横自动化技术股份有限公司 | 数据处理方法、前端设备、后端设备及地理信息系统 |
CN110989840A (zh) * | 2019-12-03 | 2020-04-10 | 成都纵横自动化技术股份有限公司 | 数据处理方法、前端设备、后端设备及地理信息系统 |
CN111627098B (zh) * | 2020-05-21 | 2023-04-07 | 广州光锥元信息科技有限公司 | 对图像中水流区域识别并生成动态水流视频的方法及装置 |
CN111612878B (zh) * | 2020-05-21 | 2023-04-07 | 广州光锥元信息科技有限公司 | 将静态照片制作成三维效果视频的方法及装置 |
CN111612878A (zh) * | 2020-05-21 | 2020-09-01 | 广州光锥元信息科技有限公司 | 将静态照片制作成三维效果视频的方法及装置 |
CN111627098A (zh) * | 2020-05-21 | 2020-09-04 | 广州光锥元信息科技有限公司 | 对图像中水流区域识别并生成动态水流视频的方法及装置 |
CN111881804B (zh) * | 2020-07-22 | 2023-07-28 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
CN111881804A (zh) * | 2020-07-22 | 2020-11-03 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
CN111968180B (zh) * | 2020-08-18 | 2023-12-05 | 维数谷智能科技(嘉兴)有限公司 | 基于参考平面的高精度物体多自由度姿态估计方法及系统 |
CN111968180A (zh) * | 2020-08-18 | 2020-11-20 | 裴成学 | 基于参考平面的高精度物体多自由度姿态估计方法及系统 |
CN113807357B (zh) * | 2021-09-08 | 2023-05-30 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN113807357A (zh) * | 2021-09-08 | 2021-12-17 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN116704264A (zh) * | 2023-07-12 | 2023-09-05 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
CN116704264B (zh) * | 2023-07-12 | 2024-01-30 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108230240B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108230240A (zh) | 一种基于深度学习获取图像城市范围内位置及姿态的方法 | |
Moreau et al. | Lens: Localization enhanced by nerf synthesis | |
US11313684B2 (en) | Collaborative navigation and mapping | |
Christiansen et al. | Unsuperpoint: End-to-end unsupervised interest point detector and descriptor | |
Paz et al. | Large-scale 6-DOF SLAM with stereo-in-hand | |
CN107967457A (zh) | 一种适应视觉特征变化的地点识别与相对定位方法及系统 | |
CN109671119A (zh) | 一种基于slam的室内定位方法及装置 | |
Tron et al. | Distributed computer vision algorithms | |
CN106251404B (zh) | 方位跟踪方法、实现增强现实的方法及相关装置、设备 | |
EP3274964B1 (en) | Automatic connection of images using visual features | |
CN103712617A (zh) | 一种基于视觉内容的多层语义地图的创建方法 | |
CN112365604A (zh) | 基于语义分割和slam的ar设备景深信息应用方法 | |
US11948309B2 (en) | Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator | |
Purkait et al. | Synthetic View Generation for Absolute Pose Regression and Image Synthesis. | |
CN114565728A (zh) | 地图构建方法、位姿确定方法及相关装置、设备 | |
Wang et al. | Robust AUV visual loop-closure detection based on variational autoencoder network | |
CN115335865A (zh) | 虚拟图像构建方法、装置、设备及存储介质 | |
CN110060296A (zh) | 估计姿态的方法、电子设备和显示虚拟对象的方法及设备 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
CN117214904A (zh) | 一种基于多传感器数据的鱼类智能识别监测方法和系统 | |
EP3400537B1 (en) | Method for navigating through a set of images | |
Dai et al. | Indoor 3D human trajectory reconstruction using surveillance camera videos and point clouds | |
Liu et al. | Ground camera image and large-scale 3-D image-based point cloud registration based on learning domain invariant feature descriptors | |
CN114757834B (zh) | 一种全景图像处理方法和全景图像处理装置 | |
Gu et al. | Spotlight: Hot target discovery and localization with crowdsourced photos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |